0%

Big Data

bigdata0120180621.jpg

未来将不是信息技术的时代,而是数据技术的时代——马云

Image_20180824201915.jpg

豆瓣的电影数据通道

102030761.png

大数据 big data的特征
(1)体量巨大。量大到足以消除不确定性。
(2)3V特性:Vast 大量、Variety 多维度、Velocity 及时性。互信息,交叉验证。
(3)全面性、完备性。两个数据源一致,交叉熵为零。即设置模型和用模型的是一个数据源。
(4)Big,not Large or Vast. 相对小的大,抽象意义的大。

终于有人把数据、信息、算法、统计、概率和数据挖掘都讲明白了!

导读:数据与数据应用中的许多概念彼此有着千丝万缕的联系,同时也有着概念上的偏重与区别,那我们可以先从数据应用领域中的常见概念先聊起。

01 什么是数据

数据是什么?这几乎成为一个我们熟视无睹的问题。

有不少朋友脑子里可能会直接冒出一个词“数字”——“数字就是数据”,我相信会有一些朋友会斩钉截铁地这么告诉我。

一些朋友会在稍作思考后回答“数字和字符、字母,这些都是数据”。

不知道你现在是不是正在纠结哪个回答更正确,亦或第二个回答更合理一些,我们先放一放。先看下面这组例子:


这里有6个0,请问它是数据吗?

我们再看这样的例子:


这里有4个1和2个a,那么它是数据吗?

也许你可能会摇摇头,“这到底是啥意思?”不错,这也就是我们在认识数据的过程中存在的一个很要命的问题,几乎在我们出发时就拦住了我们的去路。

我们回过头再想想刚才的问题可能会得到比较令自己和他人信服的回答“承载了信息的东西”才是数据,换句话说,不管是石头上刻的画,或者小孩子在沙滩上歪歪扭扭写出的字迹,或者是嬉皮士们在墙上的涂鸦,只要它表达一些确实的含义,那么这种符号就可以被认为是数据。而没有承载信息的符号,就不是数据。这个观点似乎看上去要比我们前面的回答理性得多,也科学得多,但是这个观点真的不需要补充了吗?

我们假设这两个例子都有一些比较特殊的场景,假设第一组里出现的6个0其实是时分秒的简写,000000表示00点00分00秒,而如果写作112349则表示11点23分49秒的含义,那么它是不是也是数据呢?假设第二组出现的5个1和2个a其实是一组密码,5个1代表一个被约定的地点,aa代表一种被约定的事件,那这组数字字母的意义也有了相应的解读,那么它是不是也是数据呢?

不难看出,一些符号如果想要被认定为数据,那就必须承载一定的信息。而信息很可能是因场景而定,因解读者的认知而定,所以一些符号是不是可以被当做数据,有相当的因素是取决于解读者的主观视角的。不知道这个观点你是不是认可,总之这点很重要。

02 什么是信息

说到这里,我的同事娟娟非常认真且煞有介事地跟我说:“我觉得数字、字母、图像,这些都是数据,跟信息不信息的没啥关系。”看着她认真地跟我抬杠,我觉得蛮好,至少在认识数据过程中积极思考只有好处。

信息一词,在没有学术背景的情况下其实有着很多解释,例如,广播中的声音、互联网上的消息、通讯系统中传输和处理的语音对象、甚至是小区和校园的消息看板,也就是人类社会传播的一切内容。1948年,数学家香农(Claude Elwood Shannon)在题为《通讯的数学理论》的论文中指出:“信息是用来消除随机不定性的东西”。这句话如果要我们来举个例子说明的话,大概可以想象这样一个场景。

我说了两句话:“我今年33岁。”“我明年34岁。”

那么第一句话如果是为了对不了解我的人介绍我的年龄的话而可以算作信息的话,第二句话则不是信息。至少你会觉得说了第一句以后,后面这句简直就是废话,因为这个从第一句话完全可以推导出来。

再比如,某一天巴西足球队和中国足球队进行了比赛。

结果第二天张三告诉我,“昨天巴西队赢了。”
而后李四告诉我,“昨天中国队输了。”
再而后王五告诉我,“昨天的比赛不是平局。”

前提是只要他们都是说实话的人,那么对于我来说,也就只有张三告诉我的能算信息,李四和王五说的则不能算做信息。甚至连张三说的“昨天巴西队赢了”这句话是否能够被算作信息,我们都要表示怀疑,因为这也有点“废话”的意味——但凡对足球运动有点认识的人这几乎可以认定,即便你不告诉我昨天巴西队赢了,我也能猜个八九不离十,因为可能性实在是太大太大了,大到几乎是一定的,几乎是毋庸置疑的。国足的粉丝们请放下手中的臭鸡蛋和烂西红柿,听我把例子讲完。

现在信息是什么清晰多了吧?我们可以粗忽地认为,信息就是那些把我们不清楚的事情阐明的描述,而已经明确或者知晓的东西让我们再“知晓”一遍,这些被知会的内容就不再是信息了。这个概念是很有用的,我们后面在讲信息论的时候也会再做定量的说明,现在只做一个定性的了解。

数据和信息是我们在数据挖掘和机器学习领域天天要打交道的基础,也是我们研究的主要对象。所以对数据和信息有个比较一致性的认识对后面咱们讨论问题是非常有好处的。

03 什么是算法

算法这个名称大家应该通常不陌生,如果你是一个信息相关专业的本科学生,至少在本科一年级或者二年级就接触过不少算法了。随便打开一个人力资源网站去搜搜看“算法工程师”,好的算法工程师的年薪也随便就到三五十万甚至上百万的都有的。

算法是什么?算法可以被理解成为“计算的方法和技巧”,在计算机中的算法大多数指的就是一段或者几段程序,告诉计算机用什么样的逻辑和步骤来处理数据和计算,然后得到处理的结果。

科班出身的信息相关专业的朋友看到这里就会觉得比较亲切了,经典的算法有很多,比如“冒泡排序”算法,这几乎是所有以高级语言为依托的《数据结构》的入门必学;再比如“八皇后问题”算法,这几乎也是我们在讲穷举计算时的经典保留算法案例(就是在国际象棋棋盘上放八个能够横竖斜无限制前进的皇后,让它们之间互相还不能攻击,看有多少种解);还有不少我们听说过的算法,比如MD5算法,ZIP2压缩算法等各种不胜枚举的算法。下图就是八皇后问题的一组解,我们经过穷举是可以求出所有92组解的。


应该说算法是数据加工的灵魂。如果说

数据和信息是原始的食材,
数据分析的结论是菜肴,
那么算法就是烹调过程;

如果说

数据是玉璞,
数据中蕴含的知识是价值连城的美碧,
那么算法就是玉石打磨和加工的机床和工艺流程。

算法在高级语言发展了很多年之后,更多的被封装成了独立的函数或者独立的类,开放接口供人调用,然而算法封装地再好却是不能用纯粹不假思索地使用就能获益的东西,要知道,这些封装只是在一定程度上避免了我们重复发明轮子而已。

大家不要以为算法全都是算法工程师的事情,跟普通的程序员或者分析人员无关,算法说到底是对处理逻辑理解的问题。

《孙子兵法·作战篇》有云,“不尽知用兵之害者,则不能尽知用兵之利”,意思是说,不对用兵打仗的坏处与弊端进行充分了解的话同样不可能对用兵打仗的好处有足够的认识。算法的应用是一个辩证的过程,不仅在于不同算法间的比较和搭配使用有着辩证关系,在同一个算法中,不同的参数和阈值设置同样会带来大相径庭的结果,甚至影响数据解读的科学性。这一点请大家务必有所注意。

04 统计、概率和数据挖掘

统计、概率、数据挖掘,这几个词经常伴随出现,尤其是统计和概率两个概念,几乎就像自然界的伴生矿一样分不了家,有很多出版社都出版过叫做《概率统计》的书籍。

我们这本书本身也不准备从学术的角度给统计和概率做严格的区分,在平时工作中我们用的统计大多为计数功能,例如我们在使用EXCEL中也会用到COUNT、SUM、AVERAGE等这些统计函数;如果是在软件开发的朋友在用SQL语言对数据库的某些字段进行计数(count)、求和(sum)、求平均(avg)等函数。

而概率的应用大多则是根据样本的数量以及占比得到“可能性”和“分布比例”等描述数值。当然,概率的用法远其实不止这些,在数据挖掘中同样用到大量概率相关的算法。

数据挖掘这个词很多时候是和机器学习一起出现,现在网上众人对这两个词的关系说法也是莫衷一是。有的说数据挖掘包含机器学习,有的说机器学习是数据挖掘发展的更高阶段云云。在我看来,数据挖掘和机器学习这样的词汇命名应该是信息科学自然进化和衍生出来的,带有一定的约定俗成的色彩,人们的看法见仁见智也在情理之中。

我的观点是这样。

首先我认为没有必要一定要给两个词汇划一个界限,或者一定要把他们做严格的概念区分,因为区分的标准到目前本就没有科学而无争议的界定,况且是不是能分清一个算法属于数据挖掘的范畴还是机器学习的范畴对于算法本身使用是没有任何影响的。这两个词大家如果想听解释的话,不妨只从字面意思去理解就已经足够了。

数据挖掘——首先是有一定量的数据作为研究对象,挖掘——顾名思义,说明有一些东西并不是放在表面上一眼就能看明白,要进行深度的研究、对比、甄别等工作,最终从中找到规律或知识,“挖掘”这个词用的很形象。

机器学习——我们先想想人类学习的目的是什么?是掌握知识,掌握能力,掌握技巧,最终能够进行比较复杂或者高要求的工作。那么类比一下机器,我们让机器学习,不管学习什么,最终目的都是让它独立或至少半独立地进行相对复杂或者高要求的工作。 我们在这里提到的机器学习更多是让机器帮助人类做一些大规模的数据识别、分拣、规律总结等人类做起来比较花时间的事情。但是请注意,与数据挖掘一起出现的这个机器学习概念和我们说的“人工智能”还是相差甚远,因为这里面对“智能”的考究程度实在是太低了。

05 什么是商业智能

另一个和大数据一起经常出现的词汇是商业智能,也就是我们平时简称的BI(Business Intelligence)。

商业智能——业界比较公认的说法是在1996年最早由加特纳集团(Gartner Group)提出的一个商业概念,通过应用基于事实的支持系统来辅助商业决策的制定。商业智能技术提供使企业迅速分析数据的技术和方法,包括收集、管理和分析数据,将这些数据转化为有用的信息。如果这个书本式的概念读起来还是比较费解,那么就听一个形象的比喻。

公司在日常运营过程中是需要做很多决策的,无时无刻都存在于公司的各个方面,而决策最终不管是股东大会讨论也好还是企业领导部门领导直接发布行政命令也好,最终可能是由于很多因素共同影响做出的结果,无论其来自主观还是客观。

这些决策可以如何得出呢?可以领导直接凭经验决定;可以群策群力开会决定;可以问讯很多行业专家;甚至可以找个算卦先生来占卜……从概念来说都是属于辅助决策。而显然,我们都期望不论最终是如何做出的这些决策和命令,它们都应该是更为理性、科学、正确的。但是如何帮助他们做出更为理性、科学、正确的决策呢?商业智能整体也就是研究这样一个课题,到目前为止,业界普遍比较认可的方式就是基于大量的数据所做的规律性分析。因而,市面上成熟的商业智能软件大多都是基于数据仓库做数据建模和分析,以及数据挖掘和报表的。

可以说,商业智能是一个具体的大的应用领域,也是数据挖掘和机器学习应用的一个天然亲密的场景。而且商业智能这个解决问题的理念其实不仅仅可以应用于商业,还可以应用于国防军事、交通优化、环境治理、舆情分析、气象预测等等。

本文摘编自《白话大数据与机器学习》,经出版方授权发布。

《白话大数据与机器学习》

罗胖60秒:“大数据”守株待兔对吗?

  1. 据说每一家互联网公司都应该能找到一个“神奇数字”,然后围绕它运营。

  2. 举个例子,Uber,就是美国的滴滴,他们发现一个司机接单超过25单,基本就不会流失了,所以他们就把25定为神奇数字。新司机接了13单之后,它就会拼命提醒他,你已经完成了50%的任务了,加油!

其实要依我说,这数字也不神奇,无非就是你的合作伙伴多长时间才会对你产生依赖嘛。

  1. 那为什么要围绕这些“神奇数字”来运营呢?应该围绕降低这个神奇数字来运营嘛。让你的产品越好用,依赖性就产生得越快。这才是运营的根本目的啊。

  2. 当然Uber这个说法还有它自己的合理性,但是我听说很多公司都在找这个所谓的神奇数字。

这就有点守株待兔了。把一个暂时的事件当做规律,抱着不放,但是忘了真正的目标。

大数据——正在到来的数据革命,以及它如何改变政府、商业与我们的生活

公布官员财产美国是怎么做的,美国能让少部人腐败起来吗,美国式上访是怎么回事,凭什么美国矿难那么少,全民医改美国做得到吗,美国总统大选有什么利器才能赢,下一轮全球洗牌我们世界工厂会被淘汰吗……

除了上帝,任何人都必须用数据来说话。

大数据浪潮,汹涌来袭,与互联网的发明一样,这绝不仅仅是信息技术领域的革命,更是在全球范围启动透明政府、加速企业创新、引领社会变革的利器。现代管理学之父德鲁克有言,预测未来最好的方法,就是去创造未来。而“大数据战略”,则是当下领航全球的先机。

大数据,这一世界大潮的来龙去脉如何?数据技术变革,何以能推动政府信息公开、透明和社会公正?何以促发行政管理和商业管理革新,并创造无限商机?又何以既便利又危及我们每个人的生活?Google、百度之类搜索服务,何以会不再有立足之地?引领世界的数据帝国——美国和西欧,正在如何应对大数据时代?我们中国,又当如何作为?

本书通过讲述美国半个多世纪信息开放、技术创新的历史,以别开生面的经典案例——奥巴马建设“前所未有的开放政府”的雄心、公共财政透明的曲折、《数据质量法》背后的隐情、全民医改法案的波澜、统一身份证的百年纠结、街头警察的创新传奇、美国矿难的悲情历史、商务智能的前世今生、数据开放运动的全球兴起,以及云计算、Facebook和推特等社交媒体、Web3.0与下一代互联网的未来图景等等,为您一一细解,数据创新给公民、政府、社会带来的种种挑战和变革。

美国是全书主体,但又处处反观中国当下的现实。回望中国,胡适批评“差不多先生”,黄仁宇求索“数目字管理”,作者从太平洋对面看到中美两国的差距,深知中国缺少什么、需要什么,故将十多年观察、思索所得,淘洗成这一本书。

史学大家、匹兹堡大学历史系荣誉讲座教授许倬云,有感于“老大哥”的影子,专门作序:“我们要对涂子沛先生致敬与致谢,因为他为华文世界提出一个重要的话题。”

哈佛大学商学院访问教授、全球顶尖的管理咨询大师达文波特,为中国政经两界提示智库建言:“无论是对中国政府,还是就中国的商业组织而言,《大数据》都是一本重要的书。”

目录 · · · · · ·
序言一 大数据:为华文世界提出一个重要话题/许倬云
■ 序言二 中国的雄心应该拓展到大数据领域/托马斯·H·达文波特
■ 序 幕 新总统的第一天
一人一票:把“黑”人送进“白”宫
大国新政:阳光是最好的防腐剂
■ 上 篇 帝国风云
■ 第一章 历史争战《信息自由法》
第四股力量:知情权的起点
国会议员:孤独的战争
白宫当家人:一个妥协者和机动者
政府VS. 社会:旧剧情重现新时代
■ 第二章 数据帝国的兴起
摩尔定律:全世界半个世纪的发展规律
最小数据集:上升到立法高度的开路先锋
民意几时有:选票催生的创新
普适计算:计算机本身将从人们的视线中消失
“大数据”战略:争夺全世界的下一个前沿
■ 第三章 数据治国
循“数”管理:平安大道怎样铺
数据“验”平权:民权史上的碑石
数据“打”假:最大的争议就是福利滥用
CompStat :街头警察的创新传奇
■ 第四章 商务智能的前世今生
起源:从数据到知识的挑战和跨越
结蛹:数据仓库之厚积薄发
蚕动:联机分析之惊艳
破茧:数据挖掘之智能生命的产生
化蝶:数据可视化的华丽上演
■ 中 篇 法则博弈
■ 第五章 帝国的法则
收集法则:减负,为人民减负
使用法则:隐私,文明社会的共识
发布法则:免费,人民已经交税
管理法则:质量,互联网时代的根本
■ 第六章 《数据质量法》的困局
产业界“俘虏”政府:数据背后的政经战争
美式“旋转门”:权、名、利大串场
“掺沙子”法案:国会对付总统的独门秘器
环保“风险门”:公共利益常常无人代表
集体行动的逻辑:人人都想“搭便车”
三权之歧:什么是真正的“和谐”
■ 第七章 全国隐私风波
《一九八四》:零隐私的恐惧
大数据就是“老大哥”:中央数据银行之争
百年纠结:统一身份证
“9·11”大拐点:以反恐的名义向左转
万维信息触角计划:追踪恐怖分子的“数据脚印”
6 种改变政府的力量:山姆大叔大退让
■ 下 篇 公民故事
■ 第八章 数据开放运动
一个新的世界:从软件开源到数据开放
总统的雄心:公共财政支出透明
数据民主:印裔首席信息官的崛起
Data.Gov:从旗舰初航到保“数”运动
大众创新:航班延误之候机经济学
■ 第九章 试金石:白宫访客记录
总统在见谁:大医改中的“小”插曲
全体美国人的房子:白宫
步步妥协:总统与草根的对决
从白宫安保到政治监督:执著的公民改变世界
■ 第十章 矿难中的歌声和数据
集体行动的号角:你站在哪一边
可以避免的悲剧:数据揭示的全景式真相
默认公开推定:和矿难赛跑的原则
唯一的道路:民主时时都要“争”
■ 外 篇 天下趋势
■ 视界一 大趋势
数据权:大不列颠的硕果
大合流: 国际开放联盟
云计算:新的航向
再造互联网:从网页相连到数据相“联”
■ 视界二 大挑战
逐鹿政坛:得数据者得天下
数据竞争:企业赢之道
下一波浪潮:从大数据到大社会
■ 尾 声 挑战中国:摘下“差不多先生”的文化标签
■ 大事记 20世纪大萧条后美国信息开放、技术创新之路
■ 译名表 美国政府机构ABC
■ 后记 搭建“大数据”的世界

数据之巅

bigdata20180621.jpg

《数据之巅:大数据革命,历史、现实与未来》从美国建国之基讲起,通过阐述初数时代、内战时代、镀金时代、进步时代、抽样时代、大数据时代的特征,系统梳理了美国数据文化的形成,阐述了其数据治国之道,论述了中国数据文化的薄弱之处,展望了未来数据世界的远景。

“尊重事实,用数据说话”,“推崇知识和理性,用数据创新”,作者不仅意在传承黄仁宇“数目字”管理的薪火,还试图把数据这个科技符号在中国转变为文化符号,形成一种文化话语体系。大数据正在撬动中国的制度创新、科技创新。

目录 · · · · · ·
推荐序一 进入一个重要的现代文化园地/许倬云 //XV
推荐序二 一部精彩纷呈的时代杰作/郭为 //XIX
推荐序三 大数据可以创造未来/王巍 //XXIII
第一部分 小数据之历史
第一章 初数时代:奠基共和
克服民主的劣势:用数据分权 //004
制度创新:变对抗为合作的魔法棒 //010
两党之争:无法精确分割的权力 //013
亚拉巴马悖论:没有完美的方案 //021
有数初成:共和政治反哺数据文化 //027
中国往事:第一次现代意义上的人口普查 //035
第二章 内战时代:终结奴隶制的灯塔
人口普查:南方最大的敌人 //040
用数据辩论:南北战争的序幕 //046
用数据远征:向大海进军 //053
政治计算:解放黑奴的真正原因 //069
兵家和数据:中国历史上的吉光片羽 //074
第三章 爆发:镀金时代的三重崛起
用数据预测:转变思维方式 //083
总统之死:专业化的悲情序曲 //089
世纪巅峰:大数据驱动的创新 //102
和政治分家:劳工统计的异军突起 //110
姑娘、棉花和数据:究竟谁在推动历史 //116
尘封的瑰宝:中国的数据可视化先驱 //122
第四章 量化:进步时代的数据大潮
用数据决策:水利工程中的数据竞争 //138
冲击量化的极限:给生命定价 //146
“平托”风波:福特公司的道德危机 //151
用数据来审判:理性的必然选择 //159
代理人需要监督:成本收益分析方法的未来 //163
思考中国话题:民族复兴能否量化? //172
第五章 抽样时代:统计革命的福祉
从选票到电影票:和《乱世佳人》共舞 //178
用数据跨界:质量大师是怎样炼成的 //188
旋转质量的飞轮:日本崛起 //193
世纪之问:日本行,为什么我们不行? //203
第二部分 大数据的崛起
第六章 开放时代:内开放的历程
内开放1.0:数据承载知情权 //217
内开放2.0:用数据制衡 //219
悲剧现场的第一个问题:普查局的数据之痛 //224
LEHD项目:开放数据的使用权 //229
内开放3.0:用数据推动创新 //244
2012年:来自中国的组织创新 //250
第七章 大数据时代:通往计算型的智能社会
世上本没有数:正解大数据 //255
改变世界的三股力量:大数据的成因 //259
有数据,还要有计算:计算型社会的兴起 //270
普适计算:即将到来的超级数据爆炸 //278
数据和计算:第三次工业革命的CPU //280
数据之巅:通向智能型社会的挑战 //288
第八章 智慧城市:正在拍打世界的浪潮
西方和东方:聪明和智慧 //303
目标锁定“城市平台”:神州数码对话录 //309
众包、众智和众创:让大众解决大众的问题 //315
云、隐私和未来:中国和美国的不同挑战 //325
结语 把握后发优势:把科技符号变成文化符号 //335
后记 蝴蝶振翅 //341

中国信通院:2018年大数据白皮书

白皮书三大聚焦之一:技术创新趋势

在技术发展方面,白皮书指出,数据分析、事务处理、数据流通 三类技术成为大数据技术的热点。

随着社交网络的流行导致大量非结构化数据出现,传统处理方法难以应对,数据处理系统和分析技术开始不断发展。事务处理技术呈现新的趋势,事务型业务的实时性、一致性、并发量、可靠性的强要求成为集中式向分布式转型的难点。但是,事务型业务的增长使这种转型成为强需求。

数据流通技术方面,今年亟待突破。数据流通技术是通过技术手段保证数据共享流通过程中的安全、可控与个人信息保护。以安全多方计算和区块链为代表的技术体系有望在数据流通中发挥重要作用。

白皮书三大聚焦之一:数据资产管理

魏凯表示,数据资产管理是大数据时代的必修课。数据资产管理对上支持以价值挖掘为导向的数据应用开发,对下依托大数据平台实现数据全生命周期的管理,是大数据与实体经济深度融合的必经之路。因此,除了企业内部的数据资产管理之外,还应高度重视全行业乃至国际数据治理。

白皮书指出,个人层面的数据资产管理应促进信息保护,重在隐私保护;企业层面的数据资产管理强调数据价值,注重技术安全;社会层面的数据资产管理期待数据应用,丰富产业链条;国家层面的数据资产管理聚焦运营流通,关注安全规范;国际层面的数据资产管理贵在标准共识,难在跨境流动。

白皮书三大聚焦之三:应用渗透路径

值得一提的是,大数据与实体经济的融合正不断加速,但不均衡现象日益突出。白皮书指出,这种不均衡体现在行业分布不均衡、业务类型不均衡、地域分布不均衡三个方面。

针对以上大数据发展面临的种种问题,白皮书提出了四点建议。

第一,制度与技术双管齐下,打破数据孤岛。近年来,推动数据开放共享的政策举措在一直在加强,然而效果与预期还有差距,未来,技术如能进一步取得突破,数据共享和流通将有望再前进一大步。

第二,内部与外部多重并举推动数据治理。未来,随着每个企业都将成为数据驱动的企业,企业内部数据资产需要尽早完成。同时,全行业的数据治理也应提上日程。

第三,业务与数据加速融合,深化数据应用。当前,需要鼓励企业不断融合生产系统与业务系统。这需要大数据技术企业不断提升大数据平台和应用的可用性和操作便捷程度。

最后,监管与自律同时推进,保障数据安全。一方面需要强化数据法律的建设,加强重要基础设施和关键领域的法律监管,另一方面需要强调行业自律。

张首晟:“少数派”的数据更有价值

是未来每个人都掌握自己所有的数据,这是完全去中心化的储存

机器学习最需要的是那些“少数派”拥有的数据

痛点:挖掘小数据捕捉用户需求

这条音频和你聊聊,在大数据时代,挖掘小数据的重要性。

在互联网迅猛发展的今天,大数据连接了千百万的数据点,很多人像信仰宗教一样信仰大数据。但最近有本新书,名叫《痛点:挖掘小数据满足用户需求》。这本书里说,在大数据时代,挖掘小数据也很重要,甚至更加重要。

这本书的作者是世界著名品牌营销专家马丁·林斯特龙,他曾是迪士尼、百事可乐、雀巢等著名企业的品牌顾问。马丁认为,身处大数据时代,我们要注意两个问题。

第一个问题是,大数据不会激发深刻的见解。他认为,创意通常来自把一两个不相融的物体结合起来。但是,大数据库过于狭隘,无法促成对比分析,很难带来突破性的结论。

第二个问题是,大数据重分析,轻情感,数据很难捕捉我们最看重的情感品质,比如友好、可爱。所以虽然大数据能够帮助品牌做决策,但却没办法让人们喜欢你的品牌,也就是没办法提升品牌的受欢迎度。

而且,技术的出现让我们拥有了两种人格,网络的和现实的。这两种人格几乎没有相似之处。在社交媒体上,我们并不是真实的自己。所以,当人们按照生活中的习惯行动的时候,来自网络的大数据分析通常不会很准确。

基于这两个思考,马丁·林斯特龙就提出,在大数据之外,更重要的是对真实生活场景进行观察和分析,也就是寻找小数据,只有这样才能找到用户最真实的需求。挖掘小数据,就是从手势、习惯、装饰、密码等等生活细节中,发现人们的欲望和需要。只有满足这些需要,也就是痛点,才能掌握无限的商机。换句话说,大数据与小数据的结合,才是21世纪实现营销成功的关键因素。

书中举例说,作者曾经受到委托,在沙特阿拉伯设计一个购物中心。他像往常那样在当地进行了详细的调研,发现沙特墙上的涂鸦都有一个主题,那就是水。他还发现,沙特的儿童书里面很少有和沙漠有关的内容,而是以绿洲、溪水为主。而沙特孩子五分之四的玩具是消防车、救护车和警务车,这个比例在全球来说非常高。马丁在咨询了心理学家以后,觉得这些现象都来自于沙特人对火的强烈恐惧,尤其是女性。所以在设计商场的时候,马丁和设计团队设计了几条大水渠穿过商场,还增加了鸟叫声,将商场变成了充满水形象的世界。这个设计最终取得了非常好的效果,就是因为契合了大家的心理需求。

那么,到底该如何挖掘小数据、捕捉需求呢?书里介绍了7个步骤。

第一,搜集资料。想了解某一地区人们的习惯,当地的调研必不可少。可以找几类人获得信息。一个是文化观察者,比如初到此地的新人,问他们的印象。或者当地最基层的人,比如理发师、酒保、邮递员,他们不光会告诉你事情的详情,还会告诉你他们亲朋好友的情况。我们要尽可能从更多的信源中,获得不同的观点。

第二,寻找线索。人有两个自我,一个理想的自我,一个真实的自我,而需求往往就是存在两者的差异之间。调查的时候,理想的自我可以从客厅、背包等显露在外面的地方来看,而真实的自我可以从比较隐私的地方去找,比如冰箱、衣橱等等。

第三,连接线索。问问自己:线索有什么相似的地方?这些线索偏向某个方向吗?如果最初有假设,打算开始验证吗?

第四,关联。寻找顾客行为上的转变,作者称为切入点,从中可以看到一些隐藏的信息。可以表现切入点的事件包括,结交新朋友、得到或失去伴侣、送孩子上大学,以及所有人生中的里程碑或者职业转换。

第五,因果关系。这一步要开始小数据挖掘了,找出因果关系,想想顾客的感情由什么激发?他们需要什么?要站在顾客的角度看问题。

第六,补偿。验证完因果关系,就该提取欲望了。要思考,人们还有什么欲望没被满足?满足欲望的最佳方式是什么?

第七,观念。想想已经发现的欲望,要用什么创意才能满足。作者提醒,创意不太可能在压力下产生,往往是不经意间到来,所以要给自己留有足够的空间。

克里斯坦森:过于推崇数据容易导致3个谬误

克莱顿·克里斯坦森是哈佛商学院教授,也是在世的最伟大的管理学家之一。他提出的“创新者的窘境”理论,受到包括传奇CEO如乔布斯、安迪·格鲁夫等人的大力推崇。创新者的窘境、破坏性创新等词语,也成为在管理学和创新领域最经常被提到的概念。

在他的新书《与运气竞争》中,克里斯坦森说,即便是一家伟大的公司,也可能会偏离方向,从为用户完成任务,变成为公司谋取利益。

克里斯坦森认为,发生这种情况,重要的原因是,公司从产品和运营过程中得到的数据,让公司产生了三个错误的认识。这三个错误认识分别是:积极与消极数据之比谬误;表面增长谬误和数据确认谬误。

我们先来看下第一个错误认识,也就是积极与消极数据之比谬误。

所谓的消极数据,指的是那些没有明确的意图、赞成者或反对者、以及清晰结构的数据。这些数据很大程度上,只能算是没有经过过滤和加工的背景。这些数据永远都存在,但是很不起眼,因此也很难被注意到。

积极数据就正相反。积极数据是有意收集的信息,因此非常清晰,也总是在表达出某种意图。

克里斯滕坦说,其实绝大多数成功的公司,刚刚起步时,都利用了大量的消极数据。它们的情况基本上都很相似,创始人同时也是自己产品的用户,都是为了满足一种没有被满足的需求进行创新。他们所有的创意、做法、决策,参考的信息和数据,都来自于这种需求存在的背景。他们能利用的积极数据其实非常少,因此没有办法运用数据进行理性的分析。这就是创新。

克里斯坦森写道:“创新者必须置身于现实生活的混乱背景中,才能弄清有成功潜力的新产品应该向用户提供什么。在公司的初创期,管理者就像是解谜人,而不是去死磕数据。消极数据不会张扬地将自己公布于世,你必须主动寻找,将数据归纳在一起,并坚持不懈地询问为什么。消极数据之所以关键,是因为这是寻找创新机遇的途径。”

也就说,在创业开始时,在创新的早期,创新者和企业家关注的几乎都是消极数据。

但是,接下来,情况就会变化。积极数据会变多,压倒消极数据。

如果一切顺利,产品做了出来,并且已经商业化,这时候,就会产生大量的积极数据。用克里斯坦森教授的说法,产品一旦被推到市场上,“就如打开水龙头一般,数据被创造出来,这些数据是销售开始和用户被创造出来之前不存在的。”

这些积极数据看上去都非常有用,也非常有说服力。比如:产品数据,产品卖出了多少,盈利多少,甚至哪款产品更受欢迎在哪些地方更受欢迎;用户数据,用户是企业还是个人,用户的经济水平如何,用户通过什么渠道购买了产品;资本数据,投资的回报情况如何;竞争的数据,有哪些竞争者出现,他们的情况怎样。

克里斯坦森教授说:“这些数据嗓门很亮。它会向你大喊,让你对它进行关注,把它放在优先位置上并进行优化。这种数据易于跟踪和测量,因为它往往可以被看成评测管理任务的标志。这个视点的转换虽然微妙,却具有变革意义,从缺乏结构且混乱的消极数据,转移到让人安心且实实在在的积极数据,这种感觉很美妙。”

但是,他也提醒说,如果你把这些积极数据提供的现实模型,当成是现实本身,这种转换就可能会让你误入歧途。

原因是,数据永远只是现实的抽象模型。现实生活看上去混乱不堪,缺少结构,但是,通过对现实生活的现象加以分类归纳,我们就得到了数据。数据看上去更有条理、更清晰、更容易理解。从这个角度看,数据是人造的。

由于这些积极数据过于清晰、过于有结构、过于容易理解,因此,管理者很容易就会把这些积极数据当成是自己管理公司、开发产品的抓手,而不是再把用户或客户需要完成的任务当成是出发点,进行管理。

举个例子,如果把股价视为公司好坏的衡量标准,那么,公司可以很容易通过回购股票来抬升股价。但是这跟公司的效益和创新其实没什么关系。

第二个跟数据有关的谬误,克里斯坦森称之为“表面增长谬误”。

一家公司开始寻找途径,向公司已有的用户销售更多产品。这样做的好处是,向既存用户销售更多产品,边际成本微乎其微,利润极具诱惑力。但是克里斯坦森把这种现象称为“表面增长”。

比如,公司通过复制市场上已有的产品,或者收购其他公司来扩大产品线。这么做的过程中,这些公司往往只是努力为用户创造大量的产品,而不是关注刚开始时他们取得成功的原因。

在克里斯坦森看来,这种做法是一种迷失。一个品牌大受欢迎,因为它很好地满足了用户的某种需求,帮助用户完成了一项任务。这时候,公司开始在这个品牌下开拓其他产品。

克里斯坦森教授认为:“试着为大量用户处理大量的任务会让用户感到困惑,致使他们雇佣错误的产品来完成错误的任务,最终因不满而将产品解雇。这会让企业在专注一项任务并且精益求精的颠覆性竞争者面前不堪一击。”

比如,有一种蔬菜汁饮料V8。用户开始时选择它,是因为它能够满足用户摄入蔬菜的需求。V8的竞争对手,可以说不是其他饮料,而是胡萝卜、菠菜这些蔬菜。

但是,后来V8开始扩展自己的产品线,开始出现各种各样的饮料,比如含水果的、含茶叶口味的等等。产品线令人眼花缭乱。这在克里斯坦森看来,就是一种表面增长。

导致公司不再关注用户需要完成的任务的第三个谬误,叫数据确认谬误。

其实这个谬误我们应该并不陌生。数据可以被人利用来支持各种各样的观点,“数据能够通过自我调整来支持我们想让其支持的任何观点。这是一个令人讨厌的特征”。

数据专家内特·西尔弗就说:“最为惨痛的失败性决策通常有一个共同点,我们只关注那些意味着世界恰如我们所想的标志,而不关心世界的本来面目。”

这也是人类思维方式上的一个特征。也就是,人倾向于证明自己的正确。因此,人会下意识地去收集那些能证明自己正确的事实和数据,让自己得到的数据和信息与自己的观点相一致。

尽管数据思维和大数据已经成为商业世界的流行语。但是,显然克里斯坦森对这种数据思维霸权有些怀疑。

这位公认的创新大师说:“对创新保有的最健康的态度,就是牢记几乎所有的数据都是建立在人类的偏见和判断上的。无论是数字形式还是语言形式的数据,都是从复杂的多的现实中抽象出来的。而为了方便研究,研究者往往会从这些现实中提取最突出的变量或规律。”

他把对数据的迷信和数据构建出来的世界称之为“精准假象”。数据只是代表现象、模拟现象,而不是现象本身。如果你要是笃信,只有数据是客观的,相信只要把几套数据拼凑在一起,以定量的形式表现出来,就能正确地理解用户、就能破解真相,那你就陷入到了“精准假象”之中。

总之,创新大师克里斯坦森对流行的数据思维提出了异议,并且指出了过于推崇数据容易导致的三个谬误。希望对你有所启发。

本期内容参考来源:《与运气竞争:关于创新与用户选择》;作者:克莱顿·克里斯坦森、泰迪·霍尔、凯伦·迪伦、戴维·邓肯;中信出版集团出版。

商业:滴滴的壁垒是什么

首先是资本
其次是牌照
最核心的壁垒一定是大家都在谈的“大数据和人工智能”。

比如滴滴会把北京画成一个一个的六边形小格子。然后积累这些小格子里的出行数据,下雨天、晴天、高峰期、平峰期、工作日、周末,以及这些人出来之后去哪里。然后根据这些数据,滴滴依靠算法来做预判,每一个地方大概有多少人有出行需求。按照柳青的说法,滴滴的技术已经可以做到,提前15分钟预判,并且达到85%~90%的准确率。

除此之外,还有拼车的算法。系统必须能够告诉司机,是不是有人要上车、在哪里上车,这会决定司机的路线选择。

AI时代的数据之争与公共领域界定

田小军:数据是AI时代的新石油,谁掌控了数据,谁就掌控了竞争格局,其重要性不言而喻。

“兵无常势,水无常形”,今年11月4日,中国《反不正当竞争法》历时24年后首次修订,专设“互联网专条”用以规制互联网行业竞争生态,但此时,互联网行业的竞争形态已由产品服务竞争、平台生态竞争发展到数据竞争阶段。

时间倒回2003年,在3712与百度搜霸案中,周鸿祎与李彦宏赤膊交锋中文搜索市场。再到2013年开始的3Q、3百与3狗大战,以及优酷系列广告屏蔽案,不同的产品服务跨界进行平台竞争,此时,这些争议可以利用新反法专设的“互联网专条”进行有效规制。然而,互联网江湖风云乍起,AI新贵今日头条未获平台授权批量抓取、同步新浪微博用户数据,硬件巨头华为在Magic手机中利用微信用户聊天记录进行AI服务推荐,凡此种种,创新的产业与稳定的法律反差强烈,“互联网专条”稍显力不从心。

未来是AI云端的数据竞争时代

进入“互联网+”与“人工智能”时代,随着算力算法的突破,人工智能在多次往复突破后,终于迎来新机,我们看到,微软小冰可以写诗,腾讯的DreamWriter在奥运会期间写了800篇新闻报道,今日头条的AI算法实现了千人千面的推荐,AlphaGo、腾讯绝艺等实现了人工智能在单一领域的人类超越,人工智能已经能写诗、作画、创作小说、剪辑电影、制作创意海报。而这一切,都依赖于海量数据的喂养训练,特别是,算力、算法的突破为互联网上流动的海量数据提供了最完美的商业可能。

未来的竞争,将是在云端之上,依赖大数据的AI竞争。

数据竞争问题在全球引发争议

在美国加州的Computer History Museum陈列着世界上第一台采用了人工智能学的移动机器人Shakey,意为摇摇晃晃的机器人,其在1966年到1972年间由Stanford Research Institute研制,体积庞大,但运算速度缓慢,需要数小时的时间来分析环境并规划行动路径。但是,未来或许,机器人总动员中的Wall•E,《西部世界》中的“高科技成人乐园”会在不远的将来出现。借用当今流行的一句话,“我们只知未来将至,却不知未来已来”,以数据为生产资料的新经济形态也被多国认可,并且写进了《G20数字经济发展与合作倡议》。

当前,BAT与华为、京东、今日头条、搜狗等国内企业以及Alphabet、微软、Facebook等全球科技巨头均倾全力押注人工智能技术,甚至百度提出了“All in AI”的战略,

数据作为AI时代的新石油,谁掌控了数据,谁就掌控了竞争格局,其重要性不言而喻。自新世纪以来,在全球范围内,有关数据的争议与案件频发,遍及民事、行政与刑事各个领域,甚至从反不正当竞争领域到延伸到了反垄断领域。

在国内,从2008年开始,大众点评诉爱帮网系列案件最早涉及“数据竞争”的问题,大众点评指责爱帮网大量复制其网站内容,主要是商户介绍与用户点评内容信息。大众点评不惜先后在京沪两地以著作权侵权、不正当竞争等为诉由起诉,其代理人于国富律师在其博客中写到,“爱帮网如此长时间大范围的恶性侵权如果不被判令承担高限赔偿,法律难容”,可见当时争议的激烈程度。

继大众点评案之后,有关“数据竞争”的争议不断出现。诸如,2013年百度诉360违反robots协议案、2015年新浪诉脉脉非法抓取微博用户数据案、2016年大众点评诉百度地图抓取用户点评信息案、2017年运满满诉货车帮盗取用户信息案,以及淘宝屏蔽百度搜索,顺丰与菜鸟有关物流数据接口的争议,新浪与今日头条有关微博内容爬取的争议,华为在Magic手机中利用微信用户聊天记录进行AI服务推荐等,这些争议无一例外,均与平台的海量数据有关。

而在国外,有关数据竞争的争议已经延伸至反垄断领域。2017年6月,数据分析公司hiQ向加州北部法院提起诉讼,主张Linkedin拥有市场支配地位,推动法院于8月份发出临时禁令,要求Linkedin在24小时内容移除引人妨碍hiQ获取其公开数据的技术障碍,目前此案并未审结。在此之前,2016年在评估批准微软公司收以260亿美元收购LinkedIn的交易时,欧盟委员会重点关注领英的数据价值以及对手网站是否可以复制这些数据等问题。

数据保护与数据流动存在先天冲突

数据本身是一个复杂、模糊与开放的概念,本文无意对其进行清晰界定,其实,数据大体与作为知识产权客体的知识产品具有相似特性。物理上的无形性与可传输性,经济学上的非竞争性与非排他性,这些特性使得数据同多数知识产品一样,可以进行法律拟制的财产权保护与无损的数据流动。

事实上,基于商业竞争的考虑,具有数据优势的平台倾向于将“数据”资源作为竞争优势在自有体系与合作伙伴之间流动,有学者认为这可能会产生数据拒绝交易和歧视对待的问题,但于竞争政策的视角去讨论可能更加复杂。不管是因为,基于既有的若干判例,如新浪诉脉脉案与大众点评诉百度案,法院明确承认,数据平台对于平台内的信息具有一定的控制权,即使在现阶段是否赋予其“劳动成果权”还存有一些争议。还是因为,互联网与数据反垄断问题本身就是一个在现阶段很难明确,并需要谨慎对待与慎言的问题。

分析既有的争议,我们发现,数据竞争不仅仅是一个上游之治的问题,除了诸如华为magic读取用户微信聊天信息的争议外,顺丰与菜鸟关于物流数据API接口的争议则发生在同阶平台之间,而新浪微博与脉脉、新浪微博与今日头条的争议则反映了后进入市场者对既有平台海量数据的垂涎。“罗马不是一日建成的”,数据平台方的数据优势建立需要长期的成本投入,其他市场竞争者在未获数据平台方授权的情况下,非法抓取平台数据,直接触及对方核心商业资源,显然不妥。

北京知识产权法院张玲玲法官在新浪诉脉脉案提出了数据流动与使用的三重授权原则,也即平台之间的数据流动(Open API模式)需通过“用户同意+平台同意+用户同意”的模式,较为周延的平衡了用户与平台利益保护以及数据流动的关系。事实上,因为平台数据多涉及用户隐私、数据安全、消费者利益以及平台利益等问题,数据平台方可以通过平台协议、robots协议、API限制以及技术保护措施等手段控制、限制数据合作与数据保护的范围与方式。数据抓取方如未获授权,则必然动辄得咎,除了行政与民事风险,甚至面临刑事风险。

竞争关键在于公共领域的研究

当前数据争议的核心在于,我们是否要为数据赋权?以及,我们需要什么样的“数据权”?在此问题讨论前,我们借用Jessica litman教授在在论述版权法制度的经典表述,私以为,“公共领域才真正是“数据权”法的前提和基础,离开了公共领域,人类根本无法容忍“数据权”制度的存在。”那么,我们讨论数据赋权以及“数据权”范畴设定的关键就变为,“数据权”的公共领域是什么?我们反其道而行之,可以打开通往“数据权”制度的一扇“后窗”,借此窥探“数据权”的边界,以有效平衡用户、数据平台、数据使用方以及其他参与方与社会利益的关系,并基于用户权利、公共利益与竞争政策的协调为数据定章立规。

当前,欧美等国家与地区均在探索建立数据产权与流动规则。基于用户权利考虑,隐私权利、用户遗忘权、数据可携权、数据安全等在国内外立法实践中均有讨论,并已分别在GDPR(General Data Protection Regulation,欧盟通用数据保护条例)、《网络安全法》《民法总则》等国内外立法中有所体现。基于公共利益考虑,我们认为政府公共数据、自然气象数据、医疗数据等关系国计民生福利的数据在产权设定与流动使用应更多考虑社会福利与公民福祉。而基于竞争政策考虑,为了防范市场失灵,除了在反不正当竞争领域的司法探索外,我国应重点研究建立“数据权”的限制与例外制度,当然,我们首先要考虑数据是否可以成为市场力量的来源?不同数据类型、不同产业领域,以及不同竞争主体间的特定行为是否在竞争减损方面有所区别,以及此类竞争减损与效率促进之间如何平衡,以及如何救济。至于在数据经济驱动下的网络效应评估、相关市场界定、市场支配力衡量,甚至于反垄断理论更新等问题,研究工作任重而道远。

此外,近期关注两个问题,其实与“数据权”公共领域问题的研究关系密切。

其一,“数据权”设定的有效路径是什么?我国《民法总则》征求意见稿的最初文本将“数据信息”一体纳入“知识产权”进行保护,后遭多数专家反对,最终全国人大将数据信息与虚拟财产单列进行财产概括性保护,这是我国立法在“数据权”设定方面的谨慎尝试,也反应了数据与知识产权的复杂关系。其实,知识产权在诸多学术著作中被表述为“信息产权”。而从域外经验来看,早在1992年,欧盟委员会通过《数据库指令草案(Commission Proposal for a Council Directive on the Legal)》确立了数据库权(database right)。数据库权衍生于版权体系,以保护实质投资为目的,赋予数据库控制者对抗它人对数据库内容提取的排他权利,并存在着若干平衡性安排,如对合法利用人的非实质性部分的提取或再利用行为进行限制性排除,并规定了若干“法定许可”,虽存争议,但仍可为借鉴之有益经验。私以为,借鉴“数据库权”模式可以解决多数的与“数据权”相关的财产性权益争议。

其二,用户同意与平台协议的关系,也即在未经数据平台方同意,甚至是平台协议反对的情况下,第三方仅获用户授权,能否大批量、自动化抓取用户已在数据平台方发布的数据内容。今年8月9日,今日头条突然开始通过用户授权直接把新浪微博的内容自动搬家到今日头条。面对大量用户与数据溢出的情况,新浪坚决切断了与今日头条的内容接口,并在海淀区法院立案起诉,此案尚未审结。私以为,即使搜索引擎与抓取技术中立,但从技术伦理与商业伦理角度,此类行为的规制应在技术创新与数据平台方激励之间寻求平衡。新浪在微博用户数据的整个生命周期中持续投入,如新浪法律专家王磊所言,“数据的集体涌现性使得“大数据”出现了系统组成前单个要素所不具有的性质”,平台为数据赋能,法律保护应有所倾斜。

此问题的讨论并未结束,才是刚刚开始。

数据垄断真的存在吗?

许可:“数据是新时代石油”的说法是一句成功的口号,但它只说对了一半,数据有价,但它本质上并非石油。

更新于2017年12月26日 07:15 许可 为FT中文网撰稿

我们每一个人都不喜欢垄断,除了垄断者。因为对普罗大众来说,垄断往往意味着更高的价格、更差的商品和不太好的服务。难怪曾为鲍勃•迪伦做过巡演经纪人的乔纳森•塔普林(Jonathan Taplin)在《迅捷行动,打破传统:Facebook、谷歌和亚马逊何以垄断文化、削弱民主》一书中对数字时代的垄断忧心忡忡,并倡议审查亚马逊、Facebook和谷歌对大数据的控制权。无独有偶,被称为“科技巨头克星”的欧盟委员会竞争专员玛格丽特•维斯塔格(Margrethe Vestager)亦表示:“数据可能成为并购中如何影响竞争这一问题中的重要因素。我们正在探索是否介入那些涉及重大价值数据的并购,即使拥有数据的公司并没有高昂的营业额。”这种学术和监管的新观点都着眼在“数据垄断”上,但究竟什么是“数据垄断”,它真的存在吗?

“新时代的石油”:一个误读?

自从《经济学人》将数据类比为21世纪的石油以来,数据的重要性已家喻户晓。

但是,这一比喻令人误解,因为它不但容易让人联想到洛克菲勒的标准石油公司或美孚石油公司,还会误认为现在的数据就像一百年前的石油那样,成为市场上奇货可居、盈利丰厚的商品。然而,真实的情景是:正规的数据交易市场根本没有形成,更不用说在数据市场里呼风唤雨的数据大鳄了。其中的道理简单明了:数据并非真正的石油。

数据并不稀缺。总量有限的石油牢牢把控在欧佩克和俄罗斯等少数产油大国的手中。与之相反,数据无处不在且源源不绝。随着互联网、物联网和智能终端的发展,新的数据每分每秒都在产生,并且,只要网络用户在线,纷繁芜杂的“电子足迹”就会被记录和收集。正如IDC报告所显示的,在过去数年,全球的数据量均以每年58%的速度增长,到2020年,全球数据总量将超过40ZB(相当于4万亿GB),达到2011年数据总量的22倍。不仅于此,由于数据可以零边际成本地生产和分配,企业从自己或第三方等不同来源那里获取数据并没有实质的障碍。

数据并不排他。石油只能被特定的企业占有和消费,而数据不同,它被一家企业收集、使用并不以排斥他人为代价。作为网络用户,我们能够接受不同企业提供的不同网络服务,甚至是同一类服务,比如百度知道和知乎。这一被称为“多重归属”的网络经济特性,将我们的数据分散到各个网络平台上,以至于没有企业可以独占所有数据。非排他性还意味着,即便一家企业拥有了特定数据,它也不能阻止他人通过别的途径获得同一数据。正因如此,在新浪微博诉脉脉反不正当纠纷中,脉脉便抗辩说相关数据是其利用“协同过滤算法”而得,并非从微博处获取,以证明自己数据的合法性。

数据价值并不永久。石油固然不是“恒久远和永留传”的钻石,但其并无有效期限,价值难以消减乃不争事实。与石油要储藏够久才有价值迥异,数据是典型的时效品,老数据不如新数据值钱,而且随着时间推移,前者越来越没有价值。恰如王坚先生的《在线》一书所洞见的,大数据与其说是“大”的数据,毋宁是实时在线的“活”的数据。所以,因数据累积而形成的优势会迅速消逝,因为数据的寿命有限,一旦它们“死去”,便一文不值。

数据没有法律上的所有者。数百年来,围绕石油已经建立起一套权属清晰、边界清晰的规则体系,而数据产权目前还是一笔糊涂账。最近,围绕欧盟委员会《关于构建欧洲数据经济征求意见书》,欧洲学界就数据财产权是否设立、以及如何设立论战不休。美国则基于实用主义的考虑,立法仅仅规范数据的收集、利用和流转,根本不谈数据归属问题。我国在今年生效的《民法总则》中首次将数据纳入其中,但由于缺乏细则,只有宣示“数据受法律保护”的指向意义。更重要的是,数据与个人信息、隐私等有关人格的权利夹杂不清,进一步影响了数据产权的确立。“清楚界定的产权是市场交易的前提”(科斯),数据的“无法”状态自然让数据市场的发展困难重重。

总之,“数据是新时代石油”的说法是一句成功的口号,但它只说对了一半,数据有价,但它本质上并非石油。

数据能决定企业竞争力吗?

如果说数据不是企业的产出品(output),那么我们换一个视角,数据能否作为投入品(input),从而构成左右企业竞争力的源泉?当前,“构建以数据为关键要素的数字经济”已经在世界范围内获得广泛共识,可我们如何理解数据在企业竞争中的作用呢?

首先必须承认数据是企业发展的重要因素。数字经济的技术革新彻底改变了数据运用的传统方式。现在,企业能够通过数据的学习效应(learning effect),来改进产品和服务。例如,Youtube可以收集每个用户的点击信息,来修正和完善算法,从而吸引更多用户。企业还能基于大数据的“用户画像”,提供订制化的产品,并根据其消费者能力和价格敏感度设定个性化的价格。此外,企业还能对数据进行二次利用,开发出新的商机。最近,电子商务网站美团开辟“美团打车”业务,便是一个鲜明的例子。

然而,数据的作用也不可高估。纵观历史,拥有海量数据而失败的企业比比皆是。这首先是因为,数据的优势很容易被削弱。一方面,数据是可分的和高度差异化的。基于长尾理论的观察,不同的消费者在网络购物、在线约会、社交网络、在线旅游等场景下,往往导向更精确、更符合其需求的网络服务提供者。所以,成功的企业必须挖掘属于自己的利基市场,而不能盲目跟随领先者。差异化的竞争使得自己富有价值的数据,对其他企业可能用处寥寥。另一方面,数据本身可被替代。一家将传感器嵌入公路以收集交通拥堵数据的企业,很快就会发现,随着自动视频分析、手机导航等技术运用,其数据已沦为第二选择。

其次,数据不能独立带来优势。根据胡凌先生的分析,网络平台的竞争在“资源、数据、算法、基础服务”等四个维度展开。具体来说,经由信息技术降低交易成本而带来生产性资源的不断增长,伴随着前者的活动产生大量数据,然后企业使用算法对数据进行动态分析预测,最终据此改进基础服务。显然,数据只是一个中间环节而已,它不是也不可能是决定性的。这也说明了,为什么数据巨头会失败:从时代华纳收购美国在线,到微软收购网络广告公司aQuantive,这些数据驱动型并购都降低了、而非增强了它们的竞争优势。相反,在那些看似需要大量数据才能生存的数字产业里,初创者也能脱颖而出。当Tinder在2012年9月登陆在线约会战场时,它没有任何用户数据,但凭借着简单的用户界面和对消费者需求的精准关注,Tinder很快成为市场的领导者,迄今为止,Tinder 已经见证了200 亿成功配对,成为全球最受欢迎的交友应用。

最后,数据带来的力量十分脆弱。数字经济是高度创新的行业,更有甚者,在“颠覆性创新”(Disruptive Innovation)与“维持性创新”(Sustaining Innovation)二分架构下,其创新更偏向前者而不是后者。这意味着在不断变化和迅速迭代的竞争环境中,数据巨头的竞争优势将因完全意料不到的竞争对手和商业模式化为乌有,甚至会逆转为劣势。更惨烈的是,这种变化的彻底性与网络倾覆效应(Tipping Effects)相结合,往往让基于历史数据的决策错得离谱。MySpace与Facebook擦肩而过,AltaVista和Lycos输给了谷歌,诺基亚给iPhone让位,Google+遭遇滑铁卢,雅虎更名“Altaba”,这样的事件不胜枚举。

在最近的一篇文章中,经济学家Anja Lambrecht和Catherine E. Tucker细致检讨了数据是企业核心竞争力的观点,他们认为:“在变动不居的数字经济中,几乎没有任何证据表明,仅仅拥有数据就能充分排斥更优的产品或服务的供给。要想建立可持续的竞争优势,数字战略的重点应当放在如何使用数字技术,以前所未有的方式给用户带来价值上。”就此而言,“数据是新时代石油”还有一层隐含的意义,那就是占有数据远没有开发数据有价值,正如石油大国往往不是经济强国,而这未尝不是“资源诅咒”的另类运用。

正是出于以上种种理由,尽管美国和欧洲的监管者都对数据垄断表示了关注,但在Google收购DoubleClick、TomTom收购TeleAtlas、Facebook收购WhatsApp、Nielsen收购Arbitron等一系列并购案中,他们并没有针对数据采取激进的反垄断审查措施,而把是否破坏行业竞争和侵害消费者权益作为监管目标。当然,不用讳言,数据巨头对数据的收集和利用将给普罗大众的个人信息权利和隐私权带来了挑战,可这已经是反垄断法之外的故事了。

公司怎么做好一个大数据项目?

众所周知,伴随着云时代的到来,大数据已经成了现在科技界最热门的话题。最近,公众号“依米研习社”发了篇文章,以一个福特公司的大数据项目为例,讨论了企业该如何做一款成功的大数据项目。讲得有理有据,我来说给您听听。

这篇文章指出,要想做好大数据项目,需要遵从以下几个原则。

第一,这个项目的目标要特别清晰。公司从上到下、各个部门,都得明白用这个大数据要做什么。

举例来说,福特公司的第一步是确定项目的目标,也就是让销售部门能用大数据来提升福特汽车的销售业绩。一般汽车销售商的做法是投放广告,这样随随便便就得花好几百万美金,而且还很难弄清楚,消费者买汽车到底是不是因为受了广告的影响。但大数据技术就不一样了。它可以通过对所有相关数据进行收集和分析,来确定哪些因素会影响个人购买汽车的意愿。这个目标不仅福特的营销部门清楚,财务主管部门和技术研发部门也都很清楚,这样才能上下一心地把这个项目做好。

第二,项目要用快速迭代试错的方法来稳步推进。也就是说,做项目规划的时候,要争取每星期都能推出一个功能,然后立刻对其进行测试。要是测试成功,下星期就再推出下一个功能;要是测试不成功,就立刻对其进行改正。

举例来说,福特公司的第二步是找一个大约200人的大数据分析团队,让他们全面收集与汽车销售相关的各种数据,比如第三方合同数据、区域经济数据、就业数据等等。那如何从这些海量的数据里,筛选出那些能影响汽车购买意愿的核心数据呢?他们就用快速迭代的方法,对这些数据分门别类地进行测试,看其是否能够影响到汽车的销售,从而把最核心的数据筛选了出来。

第三,所选技术要符合大数据项目的功能要求。一般做一个大数据项目都需要用一些特殊的数据分析技术,但重要的不是专门选一些特别高大上的技术,而是让你选的技术符合你设计的业务功能。

举例来说,福特公司的第三步是对筛选出来的数据进行建模分析,从而为销售和决策部门提供精准可靠的效果分析。特别地,对于所选方法可能获得什么样的营销效果,他们做了大概几十种的可能性分析。正是这样深入全面的分析,保证了他们可以从数据中挖掘出最有价值的结果。

第四,项目团队要拥有各方面的专业知识技能。公司做大数据项目就像做任何一款创新产品,都需要形成一个拥有各种专业知识的团队,上面有领导的支持,中间有大家的共识,下面的一线执行人员也都清楚自己要干什么。

举例来说,福特公司的第四步是根据这些建模分析的结果,让营销部门和运营部门来策划和实施有针对性的促销计划。比如说,在某些汽车需求特别旺盛的地方,他们会根据一些个体的特点来量身订做专门的促销方案。与传统的广告投放策略相比,这些专门的促销方案非常精准,只需要花五、六十万美金,就能知道谁对福特汽车感兴趣。相应的广告就投放到潜在客户的电子邮箱或他们所在地区的报纸上了。

第五,做出来的项目成果要达到期望的结果。一般来说,能达到80%的预期,那就已经很好了;能达到50%的预期,那也很不错了。

举例来说,福特公司的最后一步,是衡量大数据营销的效果。跟传统的广告投放相比,福特公司只花了十分之一的钱,就大幅度地提高了福特汽车的销售业绩。通过做这个项目,福特公司不光在汽车销售方面获得了成功,还在汽车的整车质量、保险费用、运输状况和驾驶模式方面积累了非常丰富的数据。他们希望用这些数据来帮助汽车驾驶员降低保险成本,从而促进消费者对福特品牌的认可,扩大市场占有率。

马云曾经在一次演讲中说过,未来将不是信息技术的时代,而是数据技术的时代。通过福特公司的例子,我们看到,大数据技术确实能显著提升一个公司的运营效率。所以做好大数据项目,将对一个企业的发展大有裨益。

本文源自:公众号“依米研习社”(企业如何做一个成功的大数据项目)

数据——释放制造业 IoT 价值的关键所在

摘要:
2020 年对制造商来说是重要的一年。德勤预测马来西亚、越南和印度尼西亚将首次跻身制造业竞争力前 15 强的国家或地区行列,紧随中国、日本、印度、韩国、中国台湾地区和新加坡,而瑞典或瑞士这样的老牌西方国家将被挤出前 15 强。但要实现这一点,亚太地区的制造商需要抓住物联网带来的机遇。在本文中,我们将了解 IoT 的业务价值,以及制造商如何从中获益。

制造业预计将成为未来亚洲经济的巨大推动力。德勤预计到 2020 年,最具竞争力的制造业国家或地区前 15 强中将有 10 个来自该区域,其中包括中国、日本、印度、韩国、中国台湾地区、新加坡、越南、马来西亚、泰国和印度尼西亚。

为什么会出现此格局?因为亚洲制造商正越来越多地从传统制造转向先进制造或智能制造,以应对劳动力短缺和技术进步不断带来的颠覆影响。在中国,政府更提出了“中国制造2025”这一理念与愿景,力图通过更为科学、先进、精细以及附加高知识产权价值的运作方式,提升制造业水准与产品综合竞争力。

在这过程中,最关键的方法之一便是通过联网传感器将原本孤立的机器、系统和产品连接在一起,从而利用物联网(Internet of Thing, IoT)技术提高运营效率、获得竞争优势。

例如,一家服装制造商可以组合使用传感器、数据收集与分析技术来监控其机器设备的实时性能与生产环境,并在机器出现故障前采取预防措施。有了这种预测性维护能力,制造商可以减少由于意外停机和生产中断而造成的成本和时间损失。在智能工厂中,IoT 可提供整个生产线的实时洞察。制造商可以借此快速识别生产滞后或产能过剩并做出调整以满足生产订单需求。

由于 IoT 的价值在于数据,所以数据管理战略是 IoT 项目成功的关键。它应该涵盖五个方面:

1.收集,其中包括收集传感器数据并可进行传输;
2.传输,侧重于确保来自互联设备的数据安全、可靠地传输到数据中心;
3.存储,需要存储传感器数据并保证其可用于分析,甚或是实时分析;
4.分析,分析系统所收集到的传感器数据并获得洞察;
5.归档,着眼于经济高效的长期传感器数据归档与管理。

制造商还需要确保他们的数据管理战略涵盖核心数据(存储在数据中心的数据)和边缘数据(在设备和传感器上生成的数据)。对于前者,收集到的所有数据首先发送到数据中心集中存储,然后再进行分析。这对于回顾性数据分析很有用。

至于后者,也称为边缘计算,联网设备执行部分筛选和分析操作,并根据生成的数据做出初始决策。例如,生产线上的一个联网机械臂便可以收集其性能数据,过滤掉不重要的信息,仅在出现异常情况(例如,过热或部件故障)时,才向操作员发送警报。为了支持边缘计算和实时分析,制造商需要利用内置闪存固态驱动器的工业 PC。由于生产线上的机器通常会用到大型磁铁,这些磁铁会损害机械硬盘,因此制造商在采用 IoT 时应该考虑使用基于闪存的存储。

此外,良好的数据管理战略应该确保无论数据驻留在何处,制造商都可以使用相同的数据管理工具和流程。随着制造商为了实现灵活性越来越多地采用混合云,他们需要采用统一的数据格式,以便能够轻松地整合来自不同环境的数据用于分析。

向先进制造发展可能会让人望而生畏,因为需要处理的事情多种多样,尤其是数据管理。减少这种复杂性的一种方法是使用能够统一 IoT 数据以便用于工作负载或应用程序的解决方案,完全无需考虑架构和平台。消除数据孤岛并且能够随时随地访问数据有助于制造商提高效率和加快创新步伐。

亚太地区大多数地区制造业的未来都将倚仗智能和互联技术。IDC 预测,到 2021 年,该区域制造商在 IoT 上的合计投资将占到全球总投资的三分之一左右。但对亚洲制造商来说,切勿因 IoT 风靡全球就盲目跟风。首先,他们需要一个适应未来需求的数据管理战略,以便能有效地利用互联设备生成的数据。只有这样,他们才能够利用 IoT 监控业务发展,做出明智决策,推动企业向前发展,超越竞争对手。

参考资料

D3数据可视化系列教程

罗辑思维:数字的坏话 107

感谢各位来到罗辑思维捧场!

我上大学的时候读到过一本书叫《万历十五年》,我这个岁数的读书人至少都听说过这本书的名字,它的作者是著名的美国华人历史学家黄仁宇教授。黄教授在这本书里抛出了一个非常重要的论断,就是怎么判断一个社会是前现代化社会还是现代化社会呢?哎,就是看这个社会可不可以用数目字来进行管理。

说实话啊,当时读到这本书的时候我是不明白这是啥意思的,后来年岁越来越增长,读的书越来越多,哦,有点儿明白了。啥叫现代化社会啊?就是陌生人可以在更广阔的范围内发生协作,这就是现代化社会。

你想,前现代化社会它都是每个人重组于一个小共同体嘛,那协作往往只需要一个传统的权威资源。比如说家长一出面,家就协作了;皇上一出面,大家就协作了,它不需要太多的数字。所以你看中国传统的社会虽然表面上皇权很强大、也有一个大一统的政治体制,文官系统也很发达。但是中央对民间的情况实际上是心中无数的,仅仅是一个认同的共同体而已。

但是在现在社会就不一样啊,陌生人之间协作,尤其这种协作要精细化、深度化的话,那就需要大量的客观公正的协作中介,这个中介就是数字。比如说我要买一家公司的股票,那我总得知道你这家公司详细的经营情况吧?我总得知道你过去一段时间你的股指的情况吧?这都是数字啊。一个国家想要管理自己的国民经济你总得知道自己有多少人口吧?总得知道你的全年GDP是多少吧?出口量是多少?发电量是多少吧?你看,都是数字。所以过去的二三百年里人类的现代化的进程其实就伴随着一个数字越来越多,越来越爆炸的进程。

《罗辑思维》在过去的两季的节目里我们曾经谈过两期的大数据的话题,那今天呢,我们就把大数据和数字这个问题反过来看。我们来看看我们如此倚重的数字它到底是靠谱还是不靠谱。

那我们先把这个问题搁在一边,我们先来聊一聊1936年的美国总统大选。那1936年是哪两位竞争啊?一位就是著名的罗斯福,还有一位呢,哎现在大家已经不知道了,因为他没选上嘛,这个人叫兰登,是美国当时共和党推出来的总统候选人。现在我们看美国历史啊,都觉得罗斯福连任四届总统,担任总统时间最长,而且德高望重。

但是你回到当时的历史情境可不是这样啊,罗斯福的整个执政过程不是一帆风顺的,尤其到1936年,实际上他当时的位置非常险。大家看啊,在此前的一次选举,就是1932年,美国不是四年一届嘛,1932年他的对手是胡佛。胡佛是个倒霉蛋,1928年当选,1929年就出了大萧条,然后他整个的任期就在那儿焦头烂额应对大萧条。美国人民就烦啊,说你这个笨蛋,永远治不好这个国家,这么严重的一个病,赶紧下去吧。换一个敢跟人们承诺我要改革的总统,所以罗斯福顺利当选,1932年,毫无悬念。

但是到了1936年情况就不是这样了,首先在经济上,罗斯福那几招使出来其实没有太大的起色。事实上美国的大萧条它不是一次性到底的,它是分7次才到底。1936年其实大萧条还恶化了,整个美国当时还有20%的失业率。经济上,你罗斯福对人民的承诺实际上没有兑现。

那第二条呢,就是罗斯福实际上在政治上整个时候声望也跌入了谷底,为啥?因为他搞得那些新政跟美国传统的价值观冲撞是非常大的。比如说他提出来的全国工业复兴法居然被当时的联邦最高法院判定违宪。要知道在美国这样的国家,一个总统重要的改革纲领被判定违宪,这是一件很丢人的事情。而且你罗斯福好歹也在台上表演了四年,你的很多政策肯定要得罪很多人的嘛。比如说当时美国坚定的共和党人,包括那些富人、有钱人他们就会觉得你那一套政策不就是敲富人的竹杠嘛?就是搞社会主义嘛?就是搞无产阶级专政嘛?向苏联学嘛?那怎么能行呢?所以这些人就憋着在1936年的时候把罗斯福给掀下台。

尤其这一年罗斯福面对的那个对手就是我们前面讲的那个兰登,他其实是一个中间派,他不是那种典型的保守派和共和党人。他的很多政策方案一出来之后,大家一看,咦,他很支持新政啊。新政当中那些起色的、见效的措施他全盘接受,他只不过那些激进的争议非常大、反弹非常大的一些新政措施,所以这个时候你不能说兰登没有竞争力。当然了,在这儿我们并不是想分析这一次大选,我们把大选先搁一边。

我们去看当时的一个媒体机构的命运,这个媒体叫《文学文摘》,你一听好像是一个小众媒体,那可不是啊。《文学文摘》它虽然是一个文摘类的杂志,把一些什么重头报道进行文学化的改写,包括直接选登。当时它在美国拥有两百多万的订户,这是一个不得了的数字啊。看看中国那什么《故事会》、《女友》这些杂志也不过就是百万级的订户,可是中国的人口基数有多大,美国当时整个全国人口也不过1.3亿,它有两百多万的杂志订户,这是一个不得了的数字。

这个《文学文摘》它真正有力量不仅仅表现在它的发行量,而且表现为它对政治的介入。要知道这份媒体它可是当时美国政坛上一个重要的搞总统选举民意调查的媒体,而且它干这个活已经干了16年了,而且此前干得还特别漂亮。你看,1920年的哈定总统、1924年的柯立芝总统、1928年的胡佛总统、包括1932年的罗斯福总统,人家《文学文摘》杂志全部都预测准了。所以当时在美国的政治生态里面它简直有拥有小诸葛、黄半仙、章鱼保罗那样的位置啊,神了呀!所以1936年的时候他们就决定干一票大的,那大到什么程度呢?要发1000万份问卷。1000万份是什么概念呀?当时美国全国的人口不过1.3个亿,有选民资格的人不过4000万,它居然要发1000万份问卷,覆盖四分之一的选民,这个预测的准确度简直是太高了呀,等于它的选举的预测报告一发布,总统选举就一锤定音了啊,几乎就能达到这样的高度。

那它为什么要干这么大呢?你想,他的算盘也是对的。第一,美国当时整个社会生态里面最好玩的一个悬念、一局大游戏可不就是总统选举吗?好,那我给你截和,我提前给你剧透,我让你这局大游戏玩不下去。我通过一个媒体的力量我就可以改变美国整个民主生态的那个运作流程。这是一个多么伟大的事业啊,虽然是一个捣乱的事业,那它可能真的。当时美国就有人在讲,说以后就不要看总统大选的结果了,直接看《文学文摘》提前发布的那个调查报告不就可以了吗?美国政治生态都有可能被改变。

当然你说它背后有没有生意的算计?当然有嘛,这1000万份问卷发下去,全美国人民都知道《文学文摘》要干一票大事儿。那你想啊,1000万份问卷发出去,这杂志社又不是傻子,肯定会在信封里塞上一张杂志的征订单嘛,这叫明修栈道,暗度陈仓。表面上是在干一件正经事,顺便把生意也给做了。

这在互联网时代叫流量入口逻辑,只要转化率达到10%,你想,1000万份问卷有100万人会填杂志征订单,一下子《文学文摘》的这个生意可就爆棚啊。所以这个生意的算盘打得是很精的。杂志社调集了多少人呢?900人来干这个事儿,500人拿钢笔写,查地址,400个人装信封,然后向全美各地发了1000万份问卷。当然了,这个问卷也不可能都回来,但是回来的数量也是惊人的,237万份回来。说实话啊,这就是人类历史上现在有据可查的最大规模的民意调查。

那调查结果呢?当然是经过非常严格地审核,据说有三次审三次校,五次审核等等,最后公布的数据是这样的,说罗斯福是大败,他最多只能拿到43%的选票。而他的对手兰登会拿到57%的选票,大赢。

但是结果呢?结果一番两瞪眼,当然这个历史我们已经知道了啊,罗斯福连任,而且罗斯福胜的那个比例是极高的,他拿到62%的选票,兰登只拿到38%。如果你熟悉美国的政治制度,你会知道美国大选不是简单的一人一票,它是在一个州内选举人票,赢家通吃。就是选这个总统的人只要比另外一个总统的人哪怕多一票,这个州所有的选举人票都是他的。那这次大选罗斯福胜到什么程度啊?就是他最后拿到523票选举人票,而兰登拿到了多少?好可怜,说不出口,8票,

这么大悬殊的比分,但是《文学文摘》杂志搞的这个调查居然如此乌龙,那到底是为啥呢?《文学文摘》杂志后来的命运就很惨啦,从几百万订户,因为你的信誉破产了嘛,干媒体就是这样,一下子掉了几十万订户,然后过了没几年就被《时代周刊》给收购了,这个杂志从此就不存在了。

但是我们想讲的是:为什么它会犯这样大的错误?道理很简单呀,我进行了如此大规模,简直是地毯式轰炸,我拿下了四分之一的美国可投票人的调查数据,居然还得出如此乌龙的结果,请问为啥?现在翻盘大概是两个原因:

第一个原因呢就是它的样本有问题。当时啊,他们选的人是在哪儿选的,它主要是三个渠道:第一,美国拥有车的人。因为有车的人他基本上在政府那儿有登记嘛,比较容易拿到他们家的家庭住址,可以寄东西。第二呢,就是美国的各种俱乐部,它有各个成员的家庭地址。第三呢,就是美国电话黄页。那前两个渠道呢,应该来说问题都不大。首先,美国那个时候汽车的普及率已经很高了,几乎家家户户都有汽车。你比如说福特的那个著名的叫T型车,那个在20年代的时候已经卖掉了1000多万辆,当时美国也几乎做到了家家都有汽车,极穷的人不算。那第二呢?像俱乐部,美国是一个民间结社特别发达的社会,所以俱乐部都这样的一个地址,应该也没有问题。

问题就出在了电话黄页,就是电话薄,当时《文学文摘》杂志,你也不能说它不用心,它也确实是抽。你比如说翻开一本电话薄,把那个尾号是1和9的抽出来,然后都给他们家去寄这个调查问卷。按说没问题的,但是它忽略了一个因素,就是美国当时的电话普及率。在第二次世界大战之前,其实是不高的,当时还不到30%,美国是二战之后,电话普及率才逐渐达到了70%以上。而什么人会有电话呢?当然就是富人啊。什么人恨罗斯福呢?当然是富人了。所以富人家有电话,通过这种方式收回的这种问卷,它在很大程度上就代表了富人的观点,富人恨罗斯福,当然它得出来的调查数据,就有了这样的一个偏差。

那《文学文摘》杂志犯的第二个错误,叫反馈失灵,表面上寄了1000万份问卷,回来了237万份,按说反馈度很高吧,可是你忽略了这个反馈的结构,给大家举一个例子一个餐馆,在门口吊了一个顾客意见薄,那请问什么样的人会上去写?当然是对饭菜不满意的人了。那些吃的觉得感觉还不错的人,一抹嘴结账走了,他们才不会上去写呢!所以1986年的选举,很多美国人他忍了罗斯福四年,他就想把他掀下台。但平时没有表达渠道,好不容易来了这么一份调查问卷,赶紧写上兰登的名字,给寄回去。而那些罗斯福的支持者,他没有强烈的动机一定要填这份调查问卷,所以回来这237万份,它可不是民意的一个标准的或者说均等的表达,它本身就包含了强烈的情绪,而《文学文摘》杂志没有意识到这一点,所以连续四次预测胜利,这一次失败了。

当然你可能会问,那前面四次不也是这么调查的吗?怎么就没有出问题呢?那你就得回到当时的历史情境了。你看,1920年是当时的哈定总统,因为一战刚刚结束,美国人民很烦那些英雄式的人物,哈定不错,长得帅,是个大帅哥,非常受美国妇女的欢迎。而且那一年美国选举,第一次妇女获得了普选权,那当然选大帅哥了,所以他就当选。但是这个哈定总统干得太烂,所以第二任就是1924年,是柯立芝总统。这个人是个正派人,原来就非常有名在外,大家忍了哈定四年,选一个正派人,所以柯立芝又上台。柯立芝带来了所谓美国历史上的叫柯立芝繁荣,经济发展得非常好。那这个时候大家发现,下面1928年选举的是柯立芝时代的商务部部长,叫胡佛,胡佛这个人因为经历很传奇,原来在中国也工作很长时间,而且商务部部长带来那么大的繁荣,肯定要归功于他。加上胡佛当时也主张叫禁酒令,所以很获得美国妇女的欢迎,所以胡佛又当选。

那1932年,罗斯福的当选这就更不用说,你看,前面这四次正确的预测,它都是跟这个总统本人的特质有关,它没有牵扯到美国当时社会结构当中的贫富之争。而贫富之争这个因素,是在1936年才爆发出来的。所以《文学文摘》杂志再用过去的调查手段,一下子就露馅了。所以这个杂志真的是走了麦城,前面胜多少次都没用。

但是我们得说,1936年其实也有一家调查机构就此成名,这就是著名的盖洛普。盖洛普也是一个人名,这个人身上的身份很多。比如说他是个数学博士,而且他还是一个新闻学教授,自己又长期在媒体干活,所以他就把数学思维代入到一个媒体的运作当中。当时他就提出来,这个调查不需要使那样的蛮力,什么发1000万份,傻。他就举了一个很著名的例子,他说你要把7000颗白豆子和3000颗黑豆子,放在一个缸里,稍微搅和搅和,你随手抓一把,里面的黑豆子和白豆子的比例仍然是3:7。这个误差是很小的,说白了,只要把这个缸稍微搅匀和一点,实际上样本量并不需要这么多。光靠大数字想获得精准的调查结果,其实是一个没有数学常识的办法。你看,人家数学博士嘛。

所以当时盖洛普就提出一套全新的,事实上也是非常具有科学性的调查预测的方法,那就是让样本充分地能够反应当时的选民结构。你比如说,你要做一次美国总统选举的预测,那你至少白人黑人的比例,你在样本当中和总人口的比例,应该一致吧。穷人和富人,共和党和民主党,城里人和乡下人,所有这些因素你都要考虑到。所以盖洛普在预测1936年选举的时候,他的样本量其实很小,1000个人,只有《文学文摘》杂志的一万分之一,但是人家就成功预测了罗斯福当选。

所以后来《文学文摘》杂志不行了,盖洛普从此声名鹊起。现在我们还知道,美国最著名的民意调查机构就是盖洛普。当然了,你说这种科学的,有数学基础的方法,是不是就一定靠谱呢?还真不是。要知道,盖洛普在预测美国总统大选的过程当中,也有几次重要的失手。比如说对卡特总统和福特总统竞选的那一次,70年代,失手了。最近的一次,布什和克里竞选,他又预测错了,他预测的是克里。盖洛普败得最惨的一次,是1948年的选择,就是杜鲁门和杜威。

这两个人当时所有的民意调查机构,包括我们讲的盖洛普,都认为杜威一定胜。这个杜威可不是美国那个著名的哲学家杜威,他是一个政客杜威,大家都觉得杜威胜。那杜鲁门呢?就是非常惨。因为大家你想,忍受民主党已经那么多年了,都是罗斯福,大家觉得换换口味。这很正常,当时几乎已经是全民的共识,甚至很多报纸就讲,说民主党不要选了。再浪费那些选举的基金,浪费那些置装费,还有那些眼泪干什么呢?干脆别选了。甚至当时民主党内部也说,不行啊,这杜鲁门,我们应该换一个更德高望重。所以当时很多人还去拉拢艾森豪威尔,因为艾森豪威尔是二战的英雄,联军的统帅。当然后来没搞成,还是这个杜鲁门去参选。甚至到了大选的最后阶段,这个杜威已经觉得胜券已定,夫妇两人携手就度假去了。

当时还有一个很八卦的段子,说这个杜威的老婆跟杜威晚上在卧室聊天。杜威说怎么样,再过两天,你就要跟美国总统睡觉了。这个胜券在握,那结果呢?大家都知道,是杜鲁门当选。所以杜威的夫人就问这个杜威,说你不是说我要跟美国总统睡觉吗?是我去华盛顿,还是把杜鲁门叫到咱们家卧室来啊。这是个段子,确实这个结果也是一番两瞪眼。包括盖洛普在事后的各种各样的解释当中,都没有办法自圆其说。

这还得插一段,就是中国的那个蒋介石,当时也跟着起哄。他觉得这个杜威肯定胜,所以到处给杜威呐喊助威,甚至中国当时,就发生在中国,给杜威助选的这个游行,在中国还发生了。因为当时蒋介石觉得,我支持一个美国总统上台,这个人肯定将来给我大量的美元嘛。你看,1948年,那可是解放战争胜利的前夕,蒋介石也在下赌注,最后发现赌错了。后来杜鲁门上台,果然就不再给他支持,这是个插曲。

但问题回到我们今天的主题,为什么盖洛普这样的机构,它用大量的数学工具,用现代化的科学方法,仍然会有预测错误。当然了,这当中牵扯到很多调查统计学的问题,我们都不提,我们就提一个效应,叫布拉德利效应。布拉德利是一个人,他参加了1982年美国加州州长的选举,那这个人是谁呢?当时他担任的是洛杉矶市的市长,也是一个成名政客,而且他是一个黑人,非洲裔的美国人。那在搞民选调查的时候,就是盖洛普这些机构在忙活的时候,发现布拉德利肯定赢,数字摆在这儿。但是选举结果出来,又是一番两瞪眼,布拉德利输了。后来就有人解释,说这叫布拉德利效应。大家是这么分析的,说表面上你去调查问,你支不支持一个黑人当选。大家都会说支持,因为不歧视黑人。这在美国是政治正确,每个人都会这么填调查表。可是一旦到选举,真要去投票的时候,他内心里的那种种族歧视意识,又会死灰复燃,他就不选他。所以调查,会调查出一个口是心非的结果,那自然就不准确了。所以这个词,布拉德利效应,在美国的调查统计学界流行了很多年。

可是到了奥巴马的时候又出事了,因为当时很多人说,别看奥巴马现在民调数据领先,布拉德效应搁在这儿,他是个黑人,很多人都会在最后一刻更改自己的决定。但是结果恰恰相反,奥巴马当选之后发现,比民调赢的那个数字还要高。所以当时又有人提出来一个叫反布拉德利效应,它又这么解释的。说很多人平时看不起黑人,所以民调的时候他不选奥巴马。可是真要到选举的时候,他又觉得这个道德负担很重,要不我这次还是选黑人吧,所以投票又投给了奥巴马。所以你看,同时一个效应,它正反两方面的因素,其实都存在。你看,调查统计学就遇到了它生命中最大最大的一个魔鬼,叫人心难测。所以调查统计学这样的一个表面上很科学的东西,这样的一个体系,现在到目前为止,其实它还是搞不定人性。

好,还是回到我们今天的主体,我们讲数字。数字这个东西既是现代文明的丰硕的成果,同时也是一个大坑。刚才我们讲的《文学文摘》和盖洛普两家机构,人家可是专业玩数据的,都被这个坑坑得不浅。但是没办法呀,现代人想要彼此协作,它必须有数据作为中介。所以既然大家这么倚仗它,那自然它就会呈现出暗黑的一面。因为有人要利用它干坏事。

所以下面我们就聊一聊,那些我们在日常生活中磕头碰脑都会遇到的数字,其实都掩藏着大量的谎言。就像我们在广告当中,我们会看到很多数据,那些数据都是真的吗?有一段词,我实在是背不下来,我念给大家听。这都是我们在一些广告当中,尤其是一线化妆品广告当中摘出来的,品牌我们就不提了,给人留点面子。反正你听得时候你自己到网上搜,看是哪家品牌。比如说28天肌肤重现美白盈润,24小时滋润,两倍柔软,还有肌肤15倍漂亮白皙,使用它之后,7天后奇迹般呈现高白光彩。好,还有,连续使用四个星期,眼袋减少47%,肌肤年轻12岁。还有,肌肤肤色显著提高93%,色斑明显减少87%,你能信吗?

当然了,一线品牌嘛,它既然敢说这个数,没准儿人家还是有些依据的。比如说找一个女孩来,用完自己的产品,说你估计你的肤色回到了多少年前?人家女孩傻嘛,说12年,用了之后立即年轻12岁。你说的啊,记录在案,然后就广告出去了。没准儿人家有依据的,但是我们稍有常识就知道,这样的数字它有什么样的科学依据。但是我们现在几乎整体是浸式地身处于这样的数据洪流当中。

当然,数据造假第一条,就是因为恶意造假,给大家举一个例子。前些年中国有这么一位奇葩的小姑娘叫郭美美,她曾经威胁一些人,说别跟我来劲啊,来劲我手里可有17个G的视频数据,我要给它公开。吓得很多人,不知道有没有人,反正吓得就不敢吱声。你看这17个G,你听这个数,它就像真的。

再有,比如说1950年的时候,美国政坛上就出现了一个那个时代的郭美美,这个人叫麦卡锡,是美国的一个参议员。他呢,其实平时就是一个妄人。但是在1950年的有一天,他突然就宣布,我手里有一份名单,美国国务院这么重要的机构,美国国务院掌管着美国全球的外交,说里面有205个共产党员,我们这样的机构已经被共产党人完全攻占了。你听这个205个,有整有零。所以当时舆论就大哗,说到底有多少,居然被他拿到了这样的一张名单,说我马上就要公布了。当然这个数字,麦卡锡后来又变来变去,一会儿说57个,一会儿说81个。但总而言之,之所以麦卡锡作为那个时代,最著名的政坛小丑,他能够表演,原因是什么?不是因为他指控美国国务院里面有共产党人,而是他拿出了一个像真的数据。

你看我们每一个人,我在办公室里就做过实验,我说你现在从0到10,你随便想一个数告诉我,百试不爽。绝大部分人都会说7,还有一部分人会说是3。包括刚才说的那几个数字,你看郭美美说17个G,麦卡锡说205个,什么57个,81个,你发现这些数有什么共同特征?都是单数。越是单数,就越给人感觉它像是真的。所以麦卡锡的这样的一个指控,才会在50年代的美国政坛掀起一阵腥风血雨。很多其实本来就是个左派人士,比如说电影大师卓别林,都被美国政府去调查。就是因为麦卡锡掀起的这一份迫害。那迫害的根源,就是因为他好像拿出了一个数字,而实际上是指鹿为马。那当然了,这种直接无中生有,在原始数字上造假的现象虽然很多,但是也比较好识别。

真正难识别的那些数字陷阱是什么?就是原始数据是真的,只不过当这个数字和其他数字,其他背景放在一起的时候,在经过人的处理和加工之后,给你呈现出来的那个意义是假的,或者是刻意扭曲的,这才是防不胜防的数字陷阱。那这种数字陷阱,我们主要讲两个现象。

第一个叫假精确,我们先说个段子,这是一个老笑话。说有一个博物馆,里面有一个恐龙的骨骼化石。那个讲解员就跟小朋友们讲,这个恐龙已经有6500万年零38年的寿命。小朋友说怎么搞得这么精确啊?说你想啊,我刚到这个博物馆来工作的时候,科学家告诉我,这恐龙6500万年,现在我工作了38年,那可不就是6500万年零38年吗?你一看就知道,这是一个错误。但是由于它显得更精确,于是显得更可信,在这个段子的背景下,你能够看出它的可笑之处。

可是我们生活中大量存在这样的现象,举个例子讲,人类在医学界曾经探讨过,就是人有没有标准体温。现在我们都知道,人是没有标准体温的,多多少少个体差异都会存在。有的人体温高,有的人体温低,但是有一个大夫最后统计来统计去,说还是有一个大概的标准数的,37摄氏度,这就是标准体温。你看,这种表述是没有问题的,可是美国人用的那个温度计是华氏的,那有的人就把37摄氏度换算为华氏的温度,是多少?98.6,标准体温就变成了98.6华氏度。这样一来,其实就暗示给你了一个什么,就是人的标准体温可以精确到0.1华氏度。所以事实上就给人一个错觉,就是人原来应该有非常精确的标准体温。你看,它只是做了一个数据换算,但实际上已经在传导一种错误的知识。

再比如说,有一个经济史学家叫麦迪逊,他写了一本书叫《世界经济千年统计》。他真是一个认真做学问的人,找了大量的原始数据,然后编了一张表,这张表很多中国的爱国年轻人从中一眼就看出,壮我国威的数据啊。说公元1年的时候,就是中国西汉的时候,中国的GDP占到全球的26.2%,到了公元1000年的时候,就是中国北宋的时候,占到全球22.7%,那中国GDP什么时候最牛呢?是清朝,1820年的时候,就是鸦片战争前20年,居然占到了全球的32.9%。那你说这些数字可信吗?要知道,当时尤其是在西汉的时候,哪有什么可靠的经济统计数据啊?可能史料当中有那些一鳞半爪的,比如钢产量,当年的中央税收,可能有一些这个数据,但是它在根上就是不精确的。当你通过数理统计的方法,各种回归分析,最后拉出这张表,什么26.2、22.7的时候,你会知道这个数字的精确已经变得毫无意义。但是正是因为它那种形式上的精确,所以被大量的文章,新闻报道所引用,从此变成学术界的一个定论。你不觉得这种东西叫无源之水,无本之木吗?

再比如说,很多政治家也会来这一套。1999年的时候,当时的联合国秘书长安南,就跑到当时的波黑萨拉热窝,就抱起一个孩子,刚出生的婴儿,宣称这就是地球上活着的第60亿个公民。老天爷啊,你用常识去想一想,地球上每一秒钟要出生四个多人,每一秒钟又要死去将近两个人,那你在抱起这个婴孩的这一刹那,其实这个数字就已经在剧烈地变动。你怎么知道这一秒钟他就正好是第60亿个婴儿呢?事实上,人类至今为止是没有这样的统计手段的。当然后来联合国反复讲,说我们之所以选择萨拉热窝,完全是偶然,这就是精确分析的结果。其实你想想看,在那样的一个背景下,去跑到萨拉热窝,他一定是有相应的政治意图的。所以一个精确的数字的发布,背后隐藏的那个丰富的背景含义,那就看你聪明不聪明,你的视野广阔不广阔。你才能够解读出它背后的真实意图,这是假精确。

那还有一种数字造假呢?叫假对比,原始数据还是真的,还是有据可查的。但是当他把两个数字,或者更多的数字放在一起的时候,那就是他刻意营造的一个结果。比如说,美国纽约有一个著名的市长叫布隆伯格,这个人本身也是大企业家,创办布隆伯格公司的。他当了市长之后就宣布,从2005年到2008年,纽约市的教育水平是直线上升的。他手里有数据,你看,纽约市这么多中学,那些学生考英语的阅读理解,包括考数学,成绩一直是在上升的,你听着好像有道理吧。

但是只要你稍微一深想就知道,哪一场考试和另外一场考试之间,那个成绩是能对比的?事实上后来美国人一研究也发现,原来不过是从2005年到2008年,纽约市的这些考试题目变得越来越简单而已。所以一个政客想塑造自己的政绩,他用这种手段,就非常容易给你制造出一个数据的假象。你看,这就是在数据加工过程当中做的那种手脚,当然,那些民间人士去批评政治家,他也会用这样的一些手段。

比如说,美国人当时在批评小布什的时候,就有一条罪证。说小布什就是一个败家子,因为他是第43任美国总统,此前42任美国总统所有对外援助的数目,都刚刚达到一万亿美金。可是小布什呢?你看他当家这几年,他就败家败出去一万亿美金。所有你说他是不是个坏蛋,你这么一听好像也有点道理。但是你要知道,在美国此前200多年历史上,那42任总统那个时候美元是什么价值。你能把它做一个简单的算术加法,然后和小布什时代进行对比吗?

我们举个简单的例子,在19世纪初的时候,当时美国人从拿破仑手里去购买整个路易斯安那,那个时候路易斯安那那不是现在地图上路易斯安那州那么一点点,是整个从北到南一贯下来的一大片那片领土,花了多少钱?1500万美金,那个时候美金很值钱,而且当时确实对美国中央政府的那个财政也是一个沉重的负担。那是很大一笔钱,但是数很小。到了19世纪中期的时候,美国人从俄国人手里买到阿拉斯加,多少钱?700多万美金,还不到买路易斯安那的一半的钱。那这两笔钱现在全加一块,2000多万美金,能买什么呀?在美国现在曼哈顿顶层的那种豪华公寓,一套你都不见得能买得下来。所以用过去的钱加总,然后和现在小布什花的钱对比,然后来指责小布什,你不觉得这就是一次政治上的把戏,一次数据上的陷害吗?当然了,如果我们把人的因素,再叠加到数字世界之后,你会发现,这个世界就彻底乱套了,因为人是这个世界上不确定性的最大来源。

给大家举一个例子,有一个段子是这么说的,两个农民在那儿讨论一个问题,说我们能不能一边抽烟,一边虔诚地向上帝祈祷?结果俩人就跑去问神父,但是俩人问法可不一样。一个人问,说我祈祷的时候能不能抽烟呢?神父说当然不可以啊。而另外一个人的问法是,我抽烟的时候能不能虔诚地向上帝祈祷呢?神父说可以的。

你看,同样一个情境,但是因为意义的背景一切换,人们得出来的答案就不一样。所以很多问卷调查看似设计得非常科学,但是很多原始意图已经植入在其中。

比如说你接到这么一份问卷,说你喜不喜欢教师这样一份令人尊敬的职业,那你会怎么填呢?还有一个问题是这样问的,说医生都认为吸烟有害健康,你同意吗?那这样的问题实际上已经预置了答案在当中。所以你看,数字既是我们理解世界真相的一个确定性的途径,同时这条途径上又充满了烟雾,就像《红楼梦》里写的太虚幻境大门上贴的那一副对联,上联叫“假作真时真亦假,下联是无为有处有还无”。

接着跟大家聊数字这个话题,现代化放出了数字这个魔鬼,但其实人类还远远没有能够驯服它。前面我们讲的是很多人刻意地要歪曲数字,其实情况比这个要复杂得多。即使没有刻意歪曲,那些客观的数字就摆在那儿,我们人类就可以通过它正确地认识世界吗?还真的不一定。

给大家举一个例子,1999年的时候,在英国发生了这么一个案子,案子的主人公是叫萨丽,是一个34岁的女律师。你想律师嘛,社会地位比较高,然后也比较有钱。她先是生了一个孩子,这个孩子到三个月的时候就突然猝死。当时医学界也正好意识到有这么一个情况,说婴儿在毫无征兆的情况下,在几乎检查不出任何病症的情况下猝死,是有这种情况的,这叫婴儿猝死症。那好了,第一个孩子就这样了。那第二年呢,这个萨丽又生了一个孩子,这个孩子活到两个月的时候,又猝死。这个给他尸检的这个医生就怀疑了,说这没准儿是那种说心理变态,然后虐待婴儿致死的情况。所以这医生就给报了警,然后就把这个萨丽作为重要的嫌疑犯,就给抓起来了,然后就上法庭。那确实,就像那个段子讲的,Howareyou怎么是你?Houoldareyou,怎么老是你?太可疑了。

那正好在这个时候出来一个人,这个人是一个当时英国著名的儿科专家叫梅铎。这个人在英国的医学界是鼎鼎大名,而且刚好这个时候女王给他授了一个爵士的头衔。在英国授爵士头衔,这就是上层社会,这个人说话要负责任的。于是这个负责任的儿科医生就出来了,他说,他上法庭说的,这可不是私下闲聊。说在我们这样的社会,一个只要他不是说吃喝都发愁的这样的家庭,如果婴儿发生猝死的概率是多少呢?是1/8543,是一个非常偶然的情况。但是如果这件事在同一个家庭,同一个母亲身上发生两次,这概率是多少呢?是七千三百万分之一。这就非常可疑了,什么概念呢?就是英国一百年,按照英国的那个人口总数,才会出现这样一个事。如果这件事发生到第三次的话,如果还在你这个家庭,我就可以铁口直断,你就是谋杀,现在已经非常之可疑。

所以这个儿科专家梅铎教授,就在法庭上做了这么一段证词,你可想而知,这样的证词是极端不利于萨丽的。当然,后来这个案子打了各种上诉,杀出来一批人,这一批人是谁呢?是英国皇家统计学会的这些学者,这些学者当然也是借题发挥,就借这个案子,指出了刚才我们讲的梅铎教授的三大误区。

第一大误区,是你把个体的概率和总体的概率搞混了。确实,在整个英国发生这样一件事情,是八千多分之一。但是如果具体到一个个体的人,那可能就是百分之百。因为这样的病,它很可能是基因遗传带来的,你的家族已经带来的这样的基因,你逃不过这一劫。所以发生在你身上是百分之百,这是我们经常犯的一个概率统计的失误。就像有一个人,也是个段子讲,带了一个炸弹上了飞机,被人给查出来了,说你怎么带炸弹?他说我不想炸飞机,那你为什么带呢?他说,你想想看,几乎不可能有一个飞机上有两个人带炸弹上去,所以我带了一个炸弹,那另外一个人就不可能了,所以我就是安全的。你看,这就是典型的把个体概率和总体概率搞混了。

那统计学会的专家还指出了第二点,就是你那七千三百万分之一,就是两个孩子接连地死于婴儿猝死这样的概率,你是怎么算出来的?你是用8543×8543,是按照那种排列组合的数学公式算出来的。但是如果这个家庭就是有这样的基因呢?她第一个孩子这么死的,第二个孩子有很大的可能仍然会死,它的概率是远远不止你讲的七千三百万分之一,所以你又算了一笔错账。

那第三个统计学上的误区,就是你把那个中标率,在样本足够大的时候给搞错了。这个话怎么讲,比如说中彩票这件事情,概率低吧,好低啊,对吧。但是你能说你们家邻居中了彩票,他就一定是作弊吗?不见得啊。它就是中标了呀,只要人口基数非常大,你遇到身边的一些稀奇古怪的概率非常低的事情,是完全可能的。萨丽有可能就是中标了,那怎么一定就能判断她是杀人凶手呢?当然,这样一段证词确实也救了萨丽,这段官司打得非常久,从1999年一直打到2003年,后来在第二次上诉的时候,萨丽胜了。后来英国法律界因为这个案例,还把过去一些相似的案例,是240多个,都翻出来重新查,后来果然有四个案子改判了。所以这对英国近年来的法律界,是一个非常出名的事情,改判。

当然了,萨丽最后的结果非常不好,因为不管怎么讲,法律虽然还了她公正,但是在她邻居,在她的朋友看来,她仍然是一个杀人凶手。所以她的后半生,34岁之后,就陷入了酗酒,然后生活搞得一塌糊涂,最后英年早逝,这是一个悲剧了。但这个悲剧在告诉我们什么,就是我们人类在认知数据。即使这些数据就是铁板钉钉的事实,实际上当我们用它来做因果判断的时候,仍然会陷入坑。

给大家举几个例子,比如说在美国有一个亚利桑那州,这个州有一个特别不好的数据,就是它的肺结核的发病率比较高。那你说这个州肯定是环境不好,不利于人的肺部健康等等,这些结论很轻松,廉价地就可以得出来。但是真相是什么呢?真相是亚利桑那州的气候特别好,特别适于肺结核病人的康复。而且这个州在治疗肺结核的医疗水平上又比较高,所以全美各地的那些肺结核病的患者都跑到这个州来治疗,来休养。所以它的人口当中肺结核的发病率就比较高。所以你看,我们通过表面上的数字,来得出轻率的结论,是多么容易陷入偏差。

你像在中国也有这样的情况,我们经常会说,现在经济非常好了。但是你看,人的环境变得恶化了,我们的癌症发病率就提高了。可是你要知道,这个癌症发病率提高的这个数字也许没有作假。但它背后的原因未必是这个,它可能是人活得岁数越来越长,健康状况越来越好,原来可能人活到三四十岁就死了,那癌症都没等到能发的时候,现在活到七八十,甚至八九十,很多癌症就容易发出来。再有呢?现在医疗水平比较高,所以对癌症的早期发病它就能够查得出来,原来不以为是癌症死,其实就是癌症。现在只是医疗诊断水平提高了而已,如果你通过这个数据就轻率地得出来,现在人的健康水平在下降,你不觉得有点不负责任吗?

再给大家举一个例子,在美国,关于吸食大麻其实有一个争论,很多人也拿出数据。说你看,吸食大麻的人比不吸食大麻的人,他的神经衰弱率高20%,所以吸大麻有害于健康。但是很多人就主张大麻解禁,他们就说你胡扯,那是因为很多神经衰弱的人他要求助于大麻,来治疗自己的神经衰弱,所以才显得吸大麻的人神经衰弱的比例比较高。

所以这场官司我们作为局外人,我们也不是专家,我们也打不清楚。但是确实两头看,似乎它都成立。那你说,谁是谁的因,谁是谁的果呢?还真是说不清楚。所以在我们平时看新闻的过程当中,经常会有人通过两个数字,然后得出一个结论,然后让你接受他的主张。对于这样的人,我们多是要多一份小心。

说到这儿,你可能会反驳了,说胖子,我可看过你《罗辑思维》以前的节目,你以前可是花了两期节目时间,去吹嘘大数据的未来,你今天怎么当了叛徒呢?你今天又开始说数据的坏话呢?

你看,这就是《罗辑思维》的方法论,人类社会出现任何现象,它都可能有它不好的这一面,那怎么办呢?是把这个现象割除,然后我们回到过去,还是继续往前走呢?

《罗辑思维》坚定地站在后者,就是人类社会发展带来的所有问题,一定是靠进一步发展来解决掉的。退回到过去,永远不是解决方案。就像数据这么多造假,扭曲,这些偏差,怎么解决?

方案是大数据,大数据的本质不是数据多,也不是数字大,而是维度丰富。给大家举一个例子,一个市长向上级,向市民谎报GDP数字,跟统计局局长一商量,乘个2,没问题啊。如果在传统社会,这就有可能是一个障眼法,就骗过了媒体,骗过了上级,也骗过了民众。

可是在大数据时代呢?我们每一个人,都身处在越来越汹涌澎湃的数据洪流之中,我们可以轻松地获得各种维度的数据。比如说这个城市的发电量、用电量,居民外出度假的总数,这个城市的汽车的增长,房价的涨幅,这个城市的社会商品的零售总额,这个城市的网购的数量等等。当这么多数据汇集在一起的时候,真相将会越来越纤毫毕现。那个时候,我们就可以冲着这个造假的市长嘿嘿冷笑,你丫编哪,你丫接着编哪。

罗辑思维:大国不能不识数 76

欢迎各位来到《罗辑思维》捧场。

这两年中国的学术界和互联网应用界出现了一个大名人,他叫涂子沛,因为他写了这本书《大数据》。这本书在此前的《罗辑思维》节目里我们也曾经推荐过,这本书真的是好看,因为这里面有大量新鲜的故事和独特的角度。我是用两个整天,不间断地一气把它看完。就在我看完之后不久,我在一个论坛上就遇到了这位涂先生,而且我们俩很巧,就坐在左右隔壁,我当时像一个粉丝一样表达了各种倾慕之情,然后就打听,我说您接下来要写什么书啊,我们可等着拜读。涂先生说,那我接着写《大数据2》呗。我说那你这2是怎么个2法呢?他说我想把美国历史和数据这两个概念,结合起来写一本书。

当时时间很短,说实话,我听了这创作计划之后,我心里是不赞同的。为啥呢?两点:第一,替涂先生自己考虑,你好不容易在大数据这个高大上、非常时尚的概念上占据了意见领袖的位置,那你应该往前写啊?写什么大数据引导人类之类的话题,对吧,那些互联网公司才请你去搞演讲嘛,大学才请你去搞讲座嘛。你现在一转身形跑到历史堆里,翻故纸堆,这能有多大出息呢?这能够形成什么样的声势呢?这是第一。第二,大家想,大数据这个概念出现,不过是近几年的事情,如果你非要到美国历史当中,找一些跟这个概念相关的事实,也不是不可以。但是你也可以想到,多少会有一些穿凿附会嘛。就像我们研究现代恐怖主义,有人说我们中国早就有恐怖主义,我们有荆轲刺秦,春秋战国那会儿就有,这个说得也对,但是你不觉得穿凿附会而且对这个现象本身缺乏洞察力吗?

但是万没想到,两年之后涂子沛先生把这本书,就是《大数据2》叫《数据之巅》捧出来之后。我看完之后,觉得真的是非常震撼,这哪里是讲什么大数据?哪里是讲什么美国历史?虽然是这个笔法,但是他分明是从数据这个全新的角度,又替我们解释了一遍什么叫做现代文明,什么叫现代文明的生活方式,什么叫美国式的大国崛起。

所以这本书我们咬了咬牙,虽然很贵,我们还是决定在6月份给罗辑思维铁杆会员的赠书当中,我们给大家一人送一本《数据之巅》这本书。

好了,先不替这书做广告了,我们话归正题。数据为什么是现代化观察它的一个角度呢?我们先回到上个世纪的70年代初。话说1971年的时候,美国的福特汽车公司推出了一款新车型叫平托车,这个车又小,耗油量又低,卖得还特别便宜,只卖2000美金一辆。你一听就知道,这是为了对抗当时德国和日本车在美国市场上的攻势。所以这是福特汽车厂的一次绝地反击,是一款战略型的产品。投放市场之后反映不错,但是要知道,所有的新车型遇到的考验,可不光是什么客户满意度、价格这些事,更重要的一个数据是你的交通事故率。

平托车在这方面的表现应该说是不错的,因为从1971年到1977年发生的恶性交通事故是500起,500这个数字是啥意思?同时期推出来的同类型车,一共是五款,在交通事故率的表现上,平托车是第三名,就正好是中游,应该是交代得过去的一份答卷。但是平托车有一个问题,就是它的油箱设计有一点点和其他车不一样,其他的车都是放在后轮轴承的上面,而这款车放在了后面。你用常识一想就知道,容易出什么问题?它的隐患就在于一旦后车追尾,容易引发邮箱的爆裂,甚至是爆燃和爆炸。果然,1972年,也就是这款车投放市场的第二年,在美国的加尼福尼亚州的高速公路上,就出现了这么一桩事故。两个年轻人开车,谁也没招,谁也没惹,车就停了,被后车追尾追上了。果然就引发了大火,一个人当场死掉了,另外一个年轻人浑身大面积烧伤住院了。

这交通事故当中,有一个非常残忍的逻辑,就是对商家来说,你还不如死了呢,你死了之后,他赔一个固定的数就完了,你一旦出现了这样重伤,在医院住着的情况,那你就赔吧,什么医药费、后半生的生活费。这就引发了一桩诉讼,这个活下来的年轻人一纸诉状把福特汽车告上了法庭。大家都知道,在美国这种案子通常都旷日持久,从1972年就一直打官司打到了1977年。官司还没有落幕的时候,有一个记者叫道伊,突然发表了一篇文章叫《疯狂的平托》。这篇文章和这个还没有落幕的官司就一下子把福特汽车公司推到了当时的舆论的风口浪尖上,在美国汽车历史上留下了一桩著名的公案,就是平托车公案。

那这篇报道到底写了些啥呢?道伊发现,他通过大量地调查发现,福特汽车公司不是不知道它的设计有毛病,当时的工程师是发现了这个毛病,而且把这个问题已经提交到公司管理层了。更可怕的是,当时福特汽车公司是知道的,只要多花11美金,请注意这个数,区区11美金,就可以解决这个设计上的毛病。那请问,你为了一款车省11美金的成本,你就把那么多条性命放在大火中燃烧,你资本家的心是黑的啊?你这个时候估计已经快喊起来了,肃静。真正的黑幕不仅于此,这个道伊接着写,就是你这11美金是怎么算出来的,道伊给福特汽车公司打了一张草稿,说他们是这么算的。福特汽车公司大概这个阶段生产了1000多万辆汽车,如果每一款车都多花这11美金的话,那你就是将近1.4亿美金的成本。可是如果我们不花这11美金,任由这个缺陷存在,任由引发的交通事故存在,我们顶多赔多少钱呢?算来算去,大概要死180个人,再伤他180个人,再撞毁大概5000辆左右的轿车,所有这些赔完了,公司一算才5000万美金左右,还不到。

那拿5000万美金和1.4亿美金,你拿大脚趾头想一想,你都知道怎么投票了吧?所以福特汽车公司的高层当时就这么做的决策,成本收益两相对比,我选不花这11美金。所以关键不在于他抠不抠,关键在于这背后的逻辑太可怕了。原来性命在你眼里就是这么一个单调的数字,原来你通过成本收益法这么一平衡,你就会心安理得的、非常理性的做出决策,把这些人送到火海里去,这才是道伊这篇文章的力量所在。大家注意这个时间,1977年,大家知道,新闻界把尼克松总统掀翻的水门事件是发生在1974年,区区三年后,这个时候媒体的力量是极大的,基本上一个黑幕曝出来,有点像中国前几年的3.15晚会似的,只要它一曝,你这公司就完蛋了。福特汽车公司虽然你那么庞大,那么在美国产业当中中流砥柱,你也架不住这样的黑幕曝出来。而且好死不死,在紧接着的1978年,印第安纳州又发生了一个事故,而且是一模一样的事故,被后车追尾,然后爆燃,死在车内的是三名花季少女。你想想看,三名花季少女这对舆论的那种煽风点火的作用有多大。

所以福特公司一下子就难以招架了。当然了,在法庭上,福特汽车公司那也是大公司,有的是钱可以雇律师,也提出了很多对道伊这篇文章的这种反击。比方说福特汽车公司说,说我没生产那么多汽车,你不能那么算,你算1200多万辆,我这款平托车从投放市场一直到现在也不过卖了几百万辆,你这些数是不对的。但是,我们应该说,不管福特汽车公司在法庭上如何抗辩,这个逻辑它躲不过去。包括后来曝光的一些文件,福田汽车公司这款平托车刚开始是没有通过叫20英里碰撞试验。就是当速度是20英里每小时的时候,你撞,撞烂了之后,应该发生什么样的事故,会不会发生邮箱的爆裂,刚开始是没通过的。后来福特汽车公司通过加固这个邮箱,把20英里每小时的碰撞试验算是混过去了。但是后来有材料发现,你只要再多花15美金零3毛钱,你就可以把这款车承受碰撞的标准从20英里每小时提高到34到38英里每小时。那请问你汽车厂,为什么不多花这笔钱?你不要再在法庭上计较那些细枝末节了,你这个残酷的逻辑你是绕不过去的呀。

在这篇报道当中,道伊把最后的矛头指向了一个数字,一个在计算成本收益计算法当中最最关键的数字。请问你一个人命多少钱,那个数是怎么得出来的?在福特汽车公司的算法当中,一条人命值多少?20万美金。但是你把20万美金一摊开,你会发现里面有些算法荒唐之极。比如说这20万美金的构成里面有一条,1万美金是支付一个人临死的时候,就是被烧死的时候承受的那个痛苦。1万美金,我烧你一回,我让你死一回,我付你1万美金,你干不干呀?如果你不干,你为什么这么算别人呢?人命至重,人命无价,在美国那种基督教文明的国家,在自杀都是被上帝不允许的,你怎么能用这么一个轻描淡写的数字,来给人命框定一个价格呢?道伊这个指责,站在我们今天看,那是掷地有声,那是公知范儿。当然,道伊还做了一些小创新,比如说他在这篇报道的结尾留了一块地,这叫请愿信,请所有看到这篇报道被感动、被愤怒的读者,你把这个请愿信剪下来,然后装到信封里给国会寄过去,要求福特汽车公司召回这款车。这有点像我们今天在微博上骂一个人呸,然后后面的人也呸,保持队形,集多少个呸,然后形成一个很有趣的文化现象。对,当时也是无数的民间的请愿信,雪片一样地向国会飞过去,那最后怎么样呢?最后还用说呢,福特汽车公司就把这个官司输掉了,赔这个还健在的年轻人250万美金,然后法庭还罚了它350万美金的惩罚性的罚款。

时隔这么多年年,我们也可以尝试心平气和地去理解一下,福特汽车公司当年的道理,它的道理无非就是两条:第一条,安全这个事它是没有尽头的。人类文明到现在为止也不可能保证生产出一辆车绝对不发生交通事故,对吧,那请问,你要花多少钱,来救多少人呢?举个例子来讲,公司发现,如果我花100万美金,可以改进某项安全措施,明年估计可以减少两例交通事故死亡,请问我投资不投资?如果投资,这就意味着人命50万一条嘛。那请问,如果一亿美金才能救两个人,还救不救呢?如果一万亿美金救两个人,请问还救不救呢?如果你的答案都是人命无价,就得救,整个汽车产业就崩溃掉了,因为没有办法做了。一辆车的成本就会高到无穷大,整个这个市场就会消失。如果我们坚持要搞市场经济,那对不起,就必须给人命定一个价,以便于企业主做理性的决策。马克斯•韦伯不是讲得好嘛,什么叫做资本主义?资本主义就是用计算的方法来决定所有的市场行为,这才叫资本主义。没有理性的决策,哪有合理的市场行为呢?这是第一个道理。

第二个道理,就是不管怎么讲,人命至重,人命无价。整个人类的资源是有限的,假设你是国家总统,现在我们都是为了保护人命,一年的预算就这么多,请问,我们是建一个水坝来防止洪水保护人命,还是多向癌症研究、多投点资金来保护人命?两个项目都在这儿,都救人,你选吧。那只有给人命标定一个价格,我们看,现在洪水潜在的危害会害死多少人,癌症会害死多少人,只有这样一比较,我们才能够决定这笔钱怎么投嘛。没有这个标准,连国家的大政方针的决策和财政资金的投向都没有了依据,这个社会不就乱了套吗?所以很多人,我们说有的公知,反复在那儿说人命至重,人命无价的时候,他就没有回到社会的运行场景,来重新理解这个问题。

我们这期节目的策划人,人民大学的冯启娜老师,她专门找了中国前两年的很多报纸上的新闻,就翻出来好多条这样的很荒唐的例子。比如说2003年《中国青年报》就有一个报道,一个小青年骑摩托车把人家一条狗撞死了,自己也飞出去了,自己也死了。最后这家要赔人命,那家要赔狗命,最后法庭审判,赔狗1.4万一条,赔人1.9万。最后把诉讼费一交,整个这一家,就是死人这一家苦主,拿到手的钱是几十块钱,那你说这不荒唐吗?可是这个荒唐是怎么造就的呢?就是因为狗是有价值的,一条狗命多少钱,到狗市上一打听就知道,名贵品种1.4万一条。人,人怎么算?中国司法没有一整套计算人命的合理的标准,而且这方面的东西,大家回避去谈,所以根据什么,比如一生的收入的折现法,那算出来你就值1.9万,所以回避对人命的计算,最后导致的恰恰是对人命的轻践。

说到这儿,我们才把今天这个节目的真正的难点,暴露给大家,就是按照通常的对社会、对生命、对生活的理解,我们是不同意把很多东西数据化的,就是大数据这个概念。但是社会运行又特别需要一个数据,作为我们共同对话的一个条件,那请问我们是要数据还是不要数据呢?罗胖子是倾向于人命要有一个计算价格的,但是你可能会提出一个质疑,这人命怎么算得清楚呢?

听了刚才那一段,估计你心里已经有数了。罗胖子是倾向于人命要有一个计算价格的。但是你可能会提出一个质疑,这人命怎么算得清楚呢?如果所有计算人命的方法都是错误的和没有人命计算方法导致社会的混乱,那在永恒的错误和永恒的混乱之间,你让我们怎么挑?对,必须承认,这确实是一个问题。美国人为这个问题也是很多年前就开始头疼,一直头疼到今天。现在美国,也是国际上的主流,计算人命的方法大概是这么几个计算法:第一叫未来收入折现法,就是你这个人不是死吗,那我算假设你活到一个平均数,你一生按你现在干的这个职业,你一共会有多少收入,然后折现到今天,就是你死这一天,你这条命的价格。然后如果为了照顾同命同价的问题,我们在全国再搞个平均数,这不就算出人命的价格吗?但是大家想一想,一个人一生当中,没准儿会换职业的,我今天搞脱口秀,明天我可能当总经理呢,我的价格就不一样了。而且一个人的生命价值,他也不是只体现在他自己挣多少钱,对吧。我们隔壁有一个女神,天天在走廊上梳头发,虽然她自己没靠梳头发挣钱,我走过去我看一眼,我心情舒畅,导致我今天的收入增加,这也是一个社会的正向效益吧,这个东西你说怎么算进来?所以这个方法看来是不妥。

美国人就想啊想啊,在五六十年代又出来一个经济学家叫谢林,谢林又发布了一个新的方法,这个方法后来他靠这一点,甚至得了诺贝尔经济学奖。他的方法叫价值意愿法,什么意思?就是一个人多少钱,那好,我们来算,来搞投票统计。说全美国人民愿意为挽救一条人命,愿意纳多少税,然后再平均下来,这不就可以测算出一个数值,来作为这个时代人命的价格吗?就看我们大家认为,一条命值多少钱,这个方法似乎也是奏效的,但是你仔细一推理,你发现也不成立。给大家举个例子,美国90年代的时候曾经做过一个调查,因为美国的那个标志就是白头鹰,白头鹰可是一个濒临灭绝的品种,说我们美国人民为了挽救这个白头鹰,我们意愿花多少钱。结果调查下来,每个美国家庭大概愿意花257美金,美国粗略地估算一下,大概是一亿个家庭,那就要花257亿美金去保护这个白头鹰。这个数字算出来之后,很多学者就摇头,说这个事可能不对,为啥呢?太乐观了,因为你这是调查,没让他掏真金白银的时候,他大嘴一说,我愿意花200多美金,你真要是征税,能征得上来吗?现在大家没有死人的时候,说你愿意花多少钱来保护一条人命,他说的那个数和真的要他把现银子往桌上一搁的时候,他愿意掏出来那个数,是一个数吗?所以这个方法似乎也不奏效。

当然,在美国历史上尤其近一百年来,关于怎么折算一个人命的价格,有各种各样的算法,各种各样的细则,但是结论都是一样,就是没有一个算法让所有人都满意。这就是数据方法来进行社会交换和价值评估遇到的一个永恒的问题。但是,我们今天把这个问题稍微反过来看一下,你也会发现,数据它不是一个简单的数,它是一个会生长的生物。数据本身是有进化能力的,只不过在很多条件的约束下,比如说技术手段,比如说价值观念,人类还没有演进的情况下,它这种进化有的时候会受挫。比如说刚才我们讲的人命的价格的计算,就是典型的受价值观影响而很难进化的一个数据。但是其他的数据,往往是在历史的进程当中,它会不断地修正自己,最后变得为所有人大体可以接受。

在这儿给大家举两个例子,都见于这本《数据之巅》的书。第一个例子是发生在美国南北战争前,大家知道那个时候的历史背景,南北双方,北方州和南方蓄奴州之间关于要不要保持奴隶制的问题,已经吵得一塌糊涂了。这个时候报纸上突然出现了一个数,请注意,这个数可不是南方的奴隶主搞什么阴谋诡计假造的数,这可是北方的联邦政府在做人口调查的时候得出来的数,什么数呢?就是在北方生活的黑人当中,每162个人当中就有一个是精神病患者或者是白痴,就是智力低下者。而这个数字一旦到南方立即就有好转,而且好转了十倍,在南方,每1600个黑人当中,才有一个精神病患或者是白痴。这个数字就这么板上钉钉的搁在这儿,那报纸的评论员看到这个数总得写文章吧,跟我们今天中国的很多公知一样,看到这么个事,总是要往体制上找原因。那你想想看,往下推论是个啥结论?这个结论就已经出来了,黑人一自由,马上就发疯,对吧。

南方奴隶主说,你看,黑人原来在我这儿当奴隶好得很,天天吃得饱穿得暖,虽然没自由,但是我们主人保护他呀,他们有非常安全的环境啊,所以他们的精神、健康状态一定是良好的。可是因为种种机缘,他们一旦获得了自由身,跑到你们北方,你们北方搞的是万恶的资本主义制度,黑人是住在贫民窟的,而且你们北方也是歧视黑人的好不好,黑人们当无产阶级,朝不保夕,天天吃不饱穿不暖,他的精神状况能不出问题吗?他一定就会疯嘛。所以这个结论板上钉钉,黑人一自由,马上就发疯。这北方人是吃了一个大瘪,但是没办法,数字就在这儿。

但是这个时候马塞诸塞州有一个精神病大夫叫贾维斯,他就不认这个邪,他说这个数肯定是错的。他这个错可不是猜想出来的,他是从他身边的观察得出来的,他生活的这个城镇,他说怎么可能按你人口普查表上有133个黑人精神病患者呢?我当精神病大夫的我还不清楚,来我这儿看病的都大部分是白人,没几个黑人,我这镇上哪有那么多黑人精神病患者。没有,一定是数出了问题。于是他就调查周边的市镇,发现也一样,这数字大得离谱,他就发了一个愿心,说我一定要把这个结论给它推翻,那怎么办呢?既然是人口普查得出来的结论,那就去找人口普查的表格。要知道,那个时候美国的人口普查已经是非常大的量级了,所以他真的是发扬了死磕精神,到全国各地去找这种表单,然后去加去算,算来算去,一声长叹,为什么?没算错。最后结论就是这样,162:1的黑人精神病患。

那会哪儿出了问题?只可能是在一个地方,就是人口普查的第一线数字就已经有了问题。但你总不能说是南方奴隶主派了一堆间谍到北方伪装成人口普查员,然后得出来这个数。因为人口普查员是一个分散的结构。查来查去,一直到1850年才真相大白,原来,北方的人口普查的表格印制的设计上出了问题,极其容易犯一个错误,把白人的精神病患者的数字填到黑人的项下。你想,本来北方的黑人数量就少,所以稍微有几个填错,就容易把这样的一个初始的错误,最终在统计学上给它放大,最后变成了这么一个荒腔走板的结论。这件事情到1850年才经由贾维斯医生之手,变得真相大白。

为什么要讲这个故事?是因为数据本身是有一种自生长的能力,这不是说数据本身是活的,而是只要一个事实,你不做定性判断而做定量判断,把它定格为一个数之后,它就要去经受所有人的挑剔、批评、甚至是推翻。那好,大家的对话就有了一个工具,有了一个介质,有了一个对象。你看贾维斯医生,就扮演这样的一个挑战者的姿态,他就看可以通过自己的努力,最后推翻这个不实之数,而让事实回到它的原状,这就是数据的作用。

再讲一个例子,美国从建国时候就立下了一个规矩,这是美国的第三任总统杰斐逊总统定下来的,说美国任何由国家主导的大型工程建设一定要去适用成本收益分析法,国家预算是有限的,所以一定是挑选那些成本收益分析之后最优化的项目,率先实施。作为一个原则,没问题吧?有问题,为啥?因为所有人都是有私心的。比方说,美国刚建国的时候,它主要的工程建设就是水利工程,水利工程谁来干啊?是由美国陆军的工程兵团来干。可是工程兵团也是人,一个人他总有一些三个跟你好,三个跟我好的人,对吧。比如说你们的州长跟我们这儿比较亲,我们这个兵团的司令是哪个州出来的人,那对这个州的项目,哪怕不是搁在明面上,在心底里总是有些小偏好的,有些小照顾的。这个照顾其实也很好办,怎么办?就是把收益算大,因为一个公共工程它的收益你是很难说得清楚的。

你比如说一个大坝建成,它总有防洪收益吧,它有灌溉收益吧,它总有军事收益吧,没准儿还有点观光旅游收益吧,那就看你怎么算了。所以算来算去,如果他有意偏向的话,把一个项目算大,这是有可能的。所以全国每个州报上来的每年上百甚至上千个项目,都在工程兵团一家来做决定,就难免有这个弊端。但是弊端来了怎么办?不怕啊,美国人有的是办法。他们紧接着就设立了第二个部门叫农垦局。你看,好像是重床叠架。但是这个设计当中是有深意的,因为农垦局是管美国的农田灌溉的,他们也管建坝,也管搞水利设施。这样在客观上跟美国陆军的工程兵团就有一个竞争。

那好了,一个项目你说谁建吧,或者先建哪个,那两家都拿报告,都拿所谓的成本收益核算出来,这个时候就会出现一个叫竞争的态势。那大家就各想各的招呗,对吧。工程兵团有一次算一个水库,他把什么都给算进去了,把海鸥都给算进去了。说你看,我建成这个水库,会来一万只海鸥,这一只海鸥我算它一年吃一千只蝗虫,可是一只蝗虫每年要吃掉一公斤的麦子,你算吧,一算出一个天文数字。你看,我建这个水库,原来替美国人省了这么多粮食不入害虫之口,这也算我的收益。这农垦局的小伙伴们一看,兄弟,有没有搞错,这个也能算进来的。但是没办法,人家就这么算,你不能说他没道理啊。

好,农垦局说,那这一招你会玩,我也会玩。那我叫什么?算次级收益。因为我主要管灌溉,你看啊,这么算。一个水利建成了,灌溉一片农田,因为这个地方灌溉条件好,很多农民就往这儿迁。你看,很多大卡车就帮着搬家,你看不就多了加油站吗?等人多了之后,这个地方就会出现电影院,电影院出现之后就会出现大商场,大商场出现之后就有很多人来观光,这个地方就会变得很繁荣。这叫次级收益,就是一层一层他都推导过去的收益,又算出一个天文数字。你看,这两家开始就斗。最典型的是罗斯福总统在任期间,有一个工程两家就抢,抢来抢去,最开始是陆军的工程兵团算出来的,说成本收益比是2.4,所以这个项目该建,而且应该由我来建。农垦局的报告紧接着递上,说同意,这个项目确实收益远大于成本,但是我农垦局算出来的不是2.4是4.8,我们整整比他多一倍,但是如果我来建,我是主要发挥这个大坝的灌溉功能,所以我的方案应该最优。

这个吵到国会那儿,国会一头脑的糨子,说这个没办法了,让罗斯福去定吧。罗斯福一看,那还有什么可说的,你们俩这都是最终的成本收益的决算,那我就按数大的定。我罗斯福又不是水利专家,我搞不清你们这些事,我就按谁算出来的数最大,我就给谁干。这农垦局把这个项目给拿走了。可是你别以为只有两个部门在争国家的预算,很快又杀进来,在上个世纪40年代,铁老大又杀进来了,为什么?因为你们天天开凿运河什么的,这耽误我铁路生意,所以铁路公司也不干。在40年代就有这么一个案子,在阿肯色州要开凿一条运河,当时农垦局和陆军工程兵团都报了方案,最后铁老大就在旁边冷冷地哼了一声,说,呦,这么多预算呢,这么多预算开一条运河啊,这么着吧,你给我,我能修两条铁路,我永远免费给国家运输物资,你们别修运河了。弄得前两个单位又特别的臊眉耷眼。

所以你看,只有当数据摆出来之后,它能引发一种态势叫竞争,各个部门围绕数据进行计算。所以在上个世纪的40年代之后,美国国家各个部门都兴起一股叫数据浪潮,干什么?其实是人潮,什么人?经济学家和统计学家。因为如果你不养活几个统计学家和经济学家,你算账算不过人家其他部门,在国家预算的竞争中,你就会落败。

我不知道说到这儿你想起什么没有?对,法庭。你看在法庭上就是这样,法官往这儿一坐,对于原被告双方的是非曲直,他是不清楚的,那怎么办?法官就像傻子一样往这儿一坐,行,你原告先说他怎么你了,你被告辩驳。就是拿一个一个的证据,然后原被告双方抗辩,法官只要有常识即可,他不需要对每一个领域都是专家。因为在竞争当中,在抗辩当中,不是法官来找你这个证据的缺失,而是你们双方盯着对方的逻辑漏洞和事实漏洞。对啊,这就是数据摊开到桌面上的一个好处,数据的成长,数据的进化,并不是靠数据本身,而是在数据两边利益完全对立的双方,都盯着对方的数据的逻辑漏洞和事实漏洞去找毛病,所以数据就会变得越来越精准。

在美国的水利工程建设这方面,最后也演化到这样的情况,说大家最后都打累了,说算了,别扯了,扯这个咱们双方永远都说不清。这样,几家我们坐下来,最后形成了一个文件叫绿皮书,这在美国政府直到今天还是非常重要的一份文件。就是甭管是工程兵还是农垦局,还是铁老大,我们以后再搞任何工程的收益计算,我们就按照一个规矩来算,比如说旅游观光收益怎么算,病虫害的收益怎么算,都有一整套标准。当然客观上讲,这套标准只要写出来,白纸黑字一旦摆在桌面上,总是有毛病的。所以这本绿皮书在1950年代定下来之后,此后经过了几次大的改版,但是没有办法,没有这个东西,大家就没有办法形成良性竞争。所以不管哪朝哪代,哪个版本的绿皮书,有多少毛病,它都是几方利益最终达成的一个平衡点。所以你再去回头看杰斐逊当年确立下来的这样一个成本收益的原则,他就通过数据的方法,最终落了地。所以数据不是一个死东西,也许刚开始的起点是不靠谱的,但是只要引进竞争,只要对人性有充分的估计,最后数据会达到一个大家都能认可的平衡点。

今天我们讲了数据很多很多的好话,但是有一个小问题没有解决,就是当数据和人伦道德之间产生冲突的时候,我们应该怎么选?前面举的那个例子,一条人命放在这儿,你可不可以用数据给他标定一个价格?不管你怎么选,你都会发现自己陷入一种道德上的两难。在美国历史上就曾经遇到过一个类似的困境,我们罗辑思维节目此前做过一期,关于美国立宪会议的节目,就讲的是这个问题。那次主要介绍的是大妥协,就是大州和小州之前利益的平衡。其实在大妥协后面,还跟了一个叫五分之三妥协,啥意思?就是北方人跟南方的奴隶主说,你们不是不给黑人政治权利吗?可以啊,那你们南方在选众议院议员的时候,黑人人口就不能计算在内。说白了,就是打压南方州在众议院的代表人数。南方的奴隶主说行啊,这没有问题,很公平,那我们给联邦纳税的时候,黑人人口也不应该计算在内。北方说那哪儿行啊,你这不是占我们便宜吗?你们南方主要劳动力是黑人,创造财富主要靠他们,这些人不算在内,那纳税的时候你们纳的就很少了。南方人说,那你们看了,要么给议席,要么你们不要税收,你看着办。

那说到这儿的时候,南北双方就不能只在原则上进行争议。双方最后说,那就说个数吧,把一个黑人人口折算成多少个北方的白人人口,不就完了吗?谈来谈去,吵来吵去,最后就得出了这个数,五分之三,一个黑人算五分之三个白人。听到这儿,你心底里已经发出正义的怒吼了,这不是赤裸裸的歧视吗?都是上帝的子民,凭什么一个黑人算60%的人呢?对,这确实不公平,也不合理。当时的与会代表汉密尔顿就讲过一句话,五分之三这个数当然有瑕疵,当然不完美,但是又怎么办呢?有总比没有要好吧,有了这个数,南北双方的人可以团结起来共同建设这个国家,一起往前走;如果没有这个数,难道我们所有的与会代表要在这个大厅里争论到老吗?

所以这在当时是一个不得已但是很理性的选择,这是当时人的看法了。隔了两百多年我们再去看五分之三这个数,其实你还会发现它的另外一个功能,就是它像一根刺一样扎在当时每个美国人的良心当中,你不是信奉上帝的国家吗?那上帝的子民都应该是平等的,怎么有一帮人只能够按60%的人算呢?这跟你建国主张的什么自由、平等的基本原则,不是相抵触的吗?这根刺一旦在良心里扎进去,它就会形成一种势能,让每个美国人都不得不正视这个伦理难题,从而要去解决它。它会随着历史进程的推演变得越来越膨胀,最后形成排山倒海的民意。果然,过了半个多世纪,这个问题通过南北战争就解决掉了,美国人终于在良心上可以松一口气了。

从这个例子其实就可以看出来,数据和伦理道德之间并不是一个非此即彼的两难选择。现实可能是丑恶的,它会反映到数据当中,但这并不是说数据本身有丑恶和高尚之分。数据就是一个客观存在,它只是把原来那些被掩盖、被模糊的伦理难题翻到桌面上而已,成为那一根所有人看得见的眼中钉,肉中刺。它本身的存在就已经形成了解决这个伦理难题的前提。就像我们中国古人,在讲怎么修身养性,怎么制怒,其实就有一招,就是你不要每时每刻让自己别发火。这你也做不到,那怎么办呢?你每发一次火,你就在墙上划一道杠杠,过了几个月你再来看,这个杠杠是不是越划越少。那这其实就是一个数字,对我们起到的一个心理暗示作用,我们就在制怒,就在调整自己的情绪,有助于问题的解决。你看,数字在伦理难题上,其实也能发挥如此大的作用。

说到这儿,我们就应该把这期节目的底牌亮出来给大家看一看了。表面上我们说的是数据,而实际上我们想介绍的是一个结论,那就是现代文明是建立在数据文明基础上的一种生活方式,你可能会不同意,说数据文明那玩意儿多枯燥,多没意思啊,多没灵性啊,外在的大千世界那么变化万端,那么丰富,用几个数字,它能描述出来吗?我们人类追求把握世界、理解世界,要追求个效率,我们用灵性,用直觉,用定性的方式,可以直接把握它。你看我们中国人的老祖宗就是这么干的,我们理解世界的变化,讲的是这套嗑儿。“太极生两仪,两仪生四相,四相生八卦”,你看,虽然也有数,可是这个数可不是数据文明那个数,是我们用审美的方式,直接用灵性把握这个世界的结论。而且这套结论永远颠扑不破,到哪朝哪代你都不能说这个结论是错的。

所以,中华文明和数据文明之间确实隔着一道观念的鸿沟。2012年,中国有一个类似于笑话似的新闻,有一个发改委的专家发布了一个数,说中华民族的复兴指数已经达到了62.74%,好多人哄笑大笑。你看,数据文明和我们的中华文明面对同样一个数字,态度就不一样。如果是数据文明中的人,比如说美国人,他就可能会跟你争论,说你这个模型有问题,你这个算法有问题,你这个参数有问题,你这个数据的来源有问题,他跟你折腾这个。

可是我们中国人呢?往往看见就是一通嘲笑就完事,把你踹翻完了,说民族复兴怎么可能用数据来表达呢,所以微博上很多人嘲笑,说我这个胃疼现在好了62.74%,就在嘲笑他。但是数据文明纵有千般不好,今天也请容罗胖为它讲出三点好处。

第一个好处,是让人和人之间可以对话,而且可以得出阶段性的结论。比方说刚刚过去的端午节,我们不是数据文明的人就会为甜粽子、咸粽子吵来吵去。这种吵,对不起,吵千秋万代也不会有结论,好不好。如果站在数据文明里,那就清楚了,那我们为什么吵,是说这两种粽子哪种更健康吗?那我们先确立标准,是不是摄入的卡路里越多,就越不健康?那就量呗,量出数,最后一番两瞪眼,结论就做出来了,这是第一个好处。

第二个好处,数据文明可以让人和人,尤其是陌生人之间的远程大规模协作变得可能。我们在此前的节目里面多次讲过,陌生人之间的分工协作是现代财富创生的根本基石。没错,比方说西餐,它就容易通过数字标准化,然后形成跨空间的协作。比如麦当劳,一个城市有一中心厨房,它生产一部分,然后通过数据来指导下一个阶段的生产。一个薯条炸几分钟,油温是多少,用数据可以控制它的口味。可是你换到我们中餐,那就完蛋了。因为它所有的烹饪系统是一个黑箱,这个黑箱只有经验丰富的大师傅可以掌握,油温是多少,火候是多少,酱油是少许等等,它一切不数据化。就导致一个大师傅的手艺和他做菜的口味没有办法横向协作,师傅跟徒弟也传不下去,横向之间的协作您就更别想,这是第二条好处。

第三条好处,就是数据是一种可以累进的文明。我们拿中医打比方,很多人都知道我是反对中医的,今天不谈这个话题。我们就看中医的一个缺陷,我们现在谈中医的最高水平是什么?很多人说来说去,不还是几千年前的那本《黄帝内经》吗?哪个当代的中医敢说,我现在拿出的这本医书,我现在讲的这套中医理论,比《黄帝内经》牛。谁敢说?没人敢说。这就说明什么?这套理论纵有千般好处,它是一种不能进展的文明方式。可是现代医学,我们统称的西医,它纵然有千般不好,它有一个好处,就是后人的成就一定是站在前人的基础之上的,后人的发现一定是站在前人的阶梯之上的。它的数据的一点点的演进,让人类对自己身体的认知的边界,是虽然艰难,但是毕竟在推进的一个知识系统。

所以说到这儿,什么是现代化?为什么说数据文明奠定了现代化的基础?就是因为上面我讲的三个特征,有了数据,人和人可以对话,人和人可以协作,知识和知识可以产生累进的作用,而现代化不就是这样爆发开来的吗?

这期节目的最后,让我们引用涂子沛先生的一句话吧。他说,“数据不像有的人说的那样,是什么资源。数据它就是土壤,而数据的开放和透明,是在这片土壤上流淌的河流,这片土壤到了哪里,这支河流流淌到哪里,哪里就会盛开文明之花”。

阿里王坚:数据是城市的新资源

大数据和城市管理之间的关系是最近几年的一个热门话题。不少城市都在努力尝试把技术和数据引入到城市管理中。很多大公司也涉足了这一领域,比如IBM和阿里巴巴等。在“2018全球智能+新商业峰会”上,阿里巴巴集团技术委员会主席王坚发表演讲,谈论技术和城市之间的关系。

王坚说,不要担心人类在未来会不会被机器人占领。“人类和动物最大的差别是,人类会创造出很多东西,然后被它们占领”。现在人类已经被可乐、自行车、汽车、公路和高楼大厦占领了。“我们的工作就是不断创造东西来占领我们,我们的时间就是被我们发明的东西占据的。”而在人类发明的所有东西中,“人类最了不起的发明是城市”。城市是所有发明创造的容器。

历史上城市的出现,都是因为有独特的资源。比如有的城市出现是因为一条河,纽约出现是因为有了钢筋水泥,使人类可以建高楼大厦。王坚认为,城市发展到今天,开始出现新的资源,那就是数据。不应该只把数据当成是跟电脑、手机一样的技术工具,而应该用资源的视角看待数据。在他看来,今天城市发展的巨大机会就是引入数据这种新的资源

要做到这一点,王坚的建议是,首先,要像规划土地资源一样规划城市的数据资源。王坚举例说,在上海黄浦区,20%的土地都被用来修路,如果能够用数据把修路的土地减少5%,就会是一笔巨大的财富。

其次,要像规划垃圾处理一样规划数据处理。在城市发展过程中,垃圾处理是一次非常大的飞跃,在学会垃圾处理之前,早年城市也有很多资源是非常浪费的。今天大家对大数据的理解就像早年对垃圾的理解一样。王坚提到,他曾经跟几个市长说,当一座城市花在数据处理上的钱和花在垃圾处理上的钱一样多的时候,未来城市就会发生翻天覆地的变化了。

第三,要像规划供电能力一样规划计算能力。当计算变成城市发展的基础设施时,城市就要像今天规划供电能力一样来规划计算能力,供给不足时,城市就像今天没了电力一样,难以运营。

王坚说,实际上,今天城市所有的问题,“不是人的智能可以解决的,只有引进新的智能,才能解决。”

比尔·盖茨:三个数据帮你理解世界

牛津大学的经济学家麦克斯·罗瑟(Max Roser)创立了OurWorldInData.org网站。这个网站利用包括健康、人口增长、环境等统计数据,让人们了解世界正在发生的变化。微软创始人比尔·盖茨很喜欢这个网站,他邀请罗瑟写文章分享了三个和全球生活条件有关的事实,盖茨认为这三个事实能帮我们更好地了解世界。

第一,自1960年以来,儿童死亡人数已从每年2000万人下降到每年600万人。这是平均每分钟的五岁以下儿童死亡数字。这个数字看起来很悲观,但罗瑟认为,我们有能力去推动积极的改变。因为数据也表明了,在20世纪50和60年代,世界每年儿童死亡的数据为2000万。我们很难看到当前世界进步的一个关键原因是,我们不知道过去有多糟糕。

第二,自1960年以来,生育率下降了一半。过去几十年,我们看到的现象一直是全球人口在不断增长,但这个数据表明,阻止人口增长并非不可能。在过去的50年里,全球生育率已经下降了一半,从每个妇女生育超过5个孩子减少为不到2.5个孩子。在过去的50年里,世界人口增长率也下降了一半,仅略高于1% 。统计数据表明,人口的快速增长将在本世纪内结束。

第三,1990至2015年间,每天有13.7万人脱离极端贫困。每天必须靠不到1.90国际元(international-dollar,一种可以校正国家之间价格差异和通货膨胀的假定货币)收入生活的人们,就属于“极端贫困”,这是一条非常低的贫困线。

不过,数据告诉我们情况在变好,极端贫困人口的数量和比例都在下降。1990年,18.6亿人每天收入不足1.9国际元,占世界人口比例超过三分之一。25年后,极端贫困人口减少了一半以上,降至7.06亿,也就是十个人中只有一个。这意味着过去25年中,平均每一天生活在极端贫困中的人数,都比前一天减少了13.7万人。虽然今天的极端贫困人口仍然有7.06亿,数量非常多,但我们也应该知道,趋势正在朝着好的方向发展。终结极端贫困是可能的。

总之,罗瑟认为,关于世界现状的统计数字表明,儿童死亡人数正在下降,人口迅速增长的挑战不会无限期地持续,极端贫困人口的数量正在减少。

为什么数据越多,真相越远


2016-04-03 涂子沛 罗辑思维

不久前的一个周末,我在成都参加希捷公司的年会。

这是全球数一数二的硬盘供应商,年会熙熙攘攘,盛况空前。在国内各项重要的经济指标均为下行的情况下,希捷公司的出货量仍然保持着增长。事实上,整个存储器行业这几年都在连续逆势增长。

时代的轮廓如此清晰。人们在减少饮料、成品油甚至住房的消费,却在花更多的钱保存数据。

今天的社会治理、商业管理以及个人生活,无不在快速地数据化,即事实和细节被广泛地记录下来,通过这些记录,消逝的世界可以重新再现,从而进行分析和预测。人类历史上一些精细的、微妙的、隐性的、曾经难以捕捉的关系和知识,现在都可以捕捉到,快速上升为显性的知识。

我的结论是,通过数据,人类从来没有如此客观地认知我们每天生活的世界。

从成都返回杭州,有几个小时我在空中飞行。回到家,一封邮件已经静静地躺在我的邮箱。里面是迫切且尖锐的提问:

“涂先生,这个时代,让我越来越困惑,我是一名资深的数据分析师,但随着数据的增多,我甚至成了一名大数据的怀疑论者……之所以没有在现场提问,是担心我的挑战给大数据的信奉者泼上冷水……”

他的问题是,数据越来越多,但他却经常感受到,他离事实越来越远,通过数据,无法发现真正的真相。

换句话说,虽然数据是真实的,但它却不一定符合真正的事实。

这是一个新的相对论,数据相对论。爱因斯坦的相对论是关于时空和引力,新的相对论是关于数据和事实。

1
—————————————
数据永远在追赶事实

美国政府曾经竭尽脑汁,一直想掌握全国真正的人口数量。

1860 年开始,美国总统就开始给美国的普通公民写信,请他们不要因为害怕人口普查而隐瞒人数,他以总统的名义保证,这些数据只是为了掌握美国的真实人口数量,而不会用于征税、征兵和法庭调查等其它用途。

此后历届美国总统都致力于排除人为因素,力图保证数据的客观性。他们还想方设法缩短普查时间,最初一次普查要两年时间才能完成,到后来慢慢缩短至两个月、乃至两三天。

每时每刻,都有人出生、死亡或者濒临死亡,他们发生在不同的家庭、医院、甚至野外。现实不会静止地等待你给它画像。任何一次人为组织的人口普查,都没有办法在同一个时间点掌握全部的这些事实,从而计算出一个时间点这个世界真正的人口数目。

直到今天,信息技术、互联网、手机如此发达,这个问题还没有解决。

人类是这个世界的灵长,迄今为止仍无法准确地掌握这个星球上有多少同类,遑论其他?

世间万物,一颗红豆、一碗牛肉面、一台汽车、一段感情,其中的知识,都往往丰富得我们难以想象,所谓一花一世界、一叶一菩提。

世界之大,包罗万象,周行不殆、须臾万变。人类就像刻舟求剑的楚人一样,能掌握的永远只是某一个节点某一个范围内的小事实,有混乱和困惑是再自然不过的事了。

但在纷繁复杂、持续演变的世界,人类又在不断努力。纵使人口不断变动,美国政府亦不断改进数据获取方式,以提高效率、逼近真相。今天的美国人口普查局,已经开发了一个“人口钟”,每分钟可以预测一次美国人口的变化情况。

就像永不停歇的钟摆,数据永远在追赶事实,在追求真理的道路上,我们进入了一个更为清晰的相对论时代。

2
—————————————

数据仅记录事实的一个侧面

十年前,我刚留学到美国。开学不久,就学到了一件重要的事情,必须区分“事实”和“观点”,至今还记得,教授在课堂上第一次引用这句名言:“每个人都可以有他自己的观点,但不可以有他自己的事实”,我从此引为圭臬。

但随着经验和阅历的增长,我又感悟到,大千世界,之所以意见纷争、共识稀少,还是因为每个人拥有他自己的事实,事实确实只有一个,但一个事实却有千万面,人因为自己的局限,往往只能看到自己认同的那一面,很少有人能面面俱到、看到一个事实的全貌。

导致的结果,各人还是各有“事实”。

这真是个很可怕的结果,数据越多,分歧也可能越多,因为每一个不同的观点,都能找到相应的数据来支持,一定程度上,比没有数据还糟糕。

在我还没到阿里巴巴工作之前,阿里就有业务线上的高管咨询我,说阿里有很多数据,也有很多部门,仅仅预测顾客下一件可能要买的东西,就有 9 个部门在做,这些部门,往往得出不一样的结论,而且都认为自己的预测最占理、最准确!

我的第一反应,是这些部门依据的应该是各自收集的、不同环节的数据,一问果然如此。我建议说,阿里的正确做法,应该是合并部门、归整数据,形成一个多维度的、尽可能大的数据,再进行预测。

这个案例其实隐藏着一个巨大的时代风险。数量庞大的数据,将导致“人人皆有理”。一个人要做出一个与其它人迥异的结论,总可以找到相应的数据来支撑自己。

其中的本因,就是数据再多,我们都可能无法掌握事实的全貌。数据再大都不是事实,但它逼近事实。事实确实是只有一个,但有千万个棱面,任何一组数据,可能都只仅仅描绘了“一个”面。

如果有上帝,那只有他的眼睛,才能看到万事万物的全貌。人,不可以。

再大的数据,也不可以。

本文由作者 涂子沛 授权罗辑思维发布,选自微信公众号“涂子沛频道”,推荐关注。

罗胖曰:

有一位擅长哲学思维的朋友问我——
人在未来世界中的位置究竟怎样?
他的答案是——

确定的东西,由机器负责。
而人,则负责给世界提供不确定性。

他举了一个例子——
一个美女如果被当众强吻,她瞬间的反应可能是一万种。
她今天的心情、刚刚的遭遇、对方的容貌、身体的感受,无穷复杂的因素,导致她的反应无法预测。
人,是未来世界的“量子计算机”。

欢迎关注我的其它发布渠道